MARIN Jean Michel

< Retour à ILB Patrimoine
Thématiques des productions
Affiliations
  • 2012 - 2020
    Institut Montpelliérain Alexander Grothendieck
  • 2017 - 2018
    Université de Montpellier
  • 2017 - 2018
    Biologie computationnelle et quantitative
  • 2015 - 2019
    Centre de biologie pour la gestion des populations
  • 2017 - 2018
    Sélection de modèles en apprentissage statistique
  • 2013 - 2014
    Centre de recherche en économie et statistique de l'Ensae et l'Ensai
  • 2013 - 2014
    Centre de recherche en économie et statistique
  • 2000 - 2001
    Université Toulouse 3 Paul Sabatier
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2014
  • Extension du calcul bayésien approximatif à l'apprentissage automatique supervisé pour déduire l'histoire démographique à partir des polymorphismes génétiques en utilisant DIYABC Random Forest.

    Francois david COLLIN, Ghislain DURIF, Louis RAYNAL, Eric LOMBAERT, Mathieu GAUTIER, Renaud VITALIS, Jean michel MARIN, Arnaud ESTOUP
    Molecular Ecology Resources | 2021
    Les méthodes basées sur la simulation telles que le calcul bayésien approximatif (ABC) sont bien adaptées à l'analyse de scénarios complexes de populations et d'histoire génétique des espèces. Dans ce contexte, les méthodes d'apprentissage automatique supervisé (SML) offrent des solutions statistiques attrayantes pour réaliser des inférences efficaces sur le choix des scénarios et l'estimation des paramètres. La méthode Random Forest (RF) est un ensemble puissant d'algorithmes SML utilisés pour les problèmes de classification ou de régression. La RF permet d'effectuer des inférences à un faible coût de calcul, sans sélection préliminaire des composantes pertinentes des statistiques sommaires ABC, et en contournant la dérivation des niveaux de tolérance ABC. Nous avons implémenté un ensemble d'algorithmes RF pour traiter les inférences en utilisant des ensembles de données simulées générées à partir d'une version étendue du simulateur génétique de population implémenté dans DIYABC v2.1.0. Le progiciel résultant, nommé DIYABC Random Forest v1.0, intègre deux fonctionnalités dans une interface conviviale : la simulation sous des scénarios évolutifs personnalisés de différents types de données moléculaires (microsatellites, séquences d'ADN ou SNP) et des traitements RF incluant des outils statistiques pour évaluer la puissance et la précision des inférences. Nous illustrons les fonctionnalités de DIYABC Random Forest v1.0 tant pour le choix des scénarios que pour l'estimation des paramètres par l'analyse d'ensembles de données pseudo-observées et réelles correspondant à des ensembles de données SNP de séquençage en pool et de séquençage individuel. En raison des propriétés inhérentes aux méthodes RF mises en œuvre et du grand vecteur de caractéristiques (y compris diverses statistiques sommaires et leurs combinaisons linéaires) disponible pour les données SNP, DIYABC Random Forest v1.0 peut contribuer efficacement à l'analyse de grands ensembles de données SNP pour faire des inférences sur les histoires génétiques complexes des populations.
  • Modélisation statistique de données médicales et analyse théorique des algorithmes d’estimation.

    Vianney DEBAVELAERE, Stephanie ALLASSONNIERE, Stanley DURRLEMAN, Emmanuel GOBET, Stephanie ALLASSONNIERE, Stanley DURRLEMAN, Christophe ANDRIEU, Jean michel MARIN, Maria VAKALOPOULOU, Christophe ANDRIEU, Jean michel MARIN
    2021
    Dans le domaine médicale, l'usage de caractéristiques extraites d'images est de plus en plus répandu. Ces mesures peuvent être des nombres réels (volume, score cognitifs), des maillages d'organes ou l'image elle-même. Dans ces deux derniers cas, un espace Euclidien ne peut décrire l'espace de mesures et il est nécessaire de se placer sur une variété Riemanienne. En utilisant ce cadre Riemannien et des modèles à effets mixtes, il est alors possible d'estimer un objet représentatif de la population ainsi que la variabilité inter-individuelle.Dans le cas longitudinal (sujets observés de manière répétée au cours du temps), ces modèles permettent de créer une trajectoire moyenne représentative de l’évolution globale de la population. Dans cette thèse, nous proposons de généraliser ces modèles dans le cas d'un mélange de population. Chaque sous-population peut suivre différentes dynamiques au cours du temps et leur trajectoire représentative peut être la même ou différer d'un intervalle temporel à l'autre. Ce nouveau modèle permet par exemple de modéliser l'apparition d'une maladie comme une déviation par rapport à un vieillissement normal.Nous nous intéressons également à la détection d'anomalies (par exemple de tumeurs) dans une population. En disposant d'un objet représentant une population contrôle, nous définissons une anomalie comme ce qui ne peut être reconstruit par déformation difféomorphique de cet objet représentatif. Notre méthode à l'avantage de ne nécessiter ni grand jeu de donnée, ni annotation par des médecins et peut être facilement appliquée à tout organe.Finalement, nous nous intéressons à différentes propriétés théoriques des algorithmes d'estimation utilisés. Dans le cadre des modèles à effets mixtes non linéaires, l'algorithme MCMC-SAEM est utilisé. Nous discuterons de deux limitations théoriques. Premièrement, nous lèverons l'hypothèse d'ergodicité géométrique en la remplaçant par une hypothèse d'ergodicité sous-géométrique. De plus, nous nous intéresserons à une méthode permettant d'appliquer l'algorithme SAEM quand la distribution jointe n'est pas courbe exponentielle. Nous montrerons que cette méthode introduit un biais dans l'estimation que nous mesurerons. Nous proposerons également un nouvel algorithme permettant de le réduire.
  • L'inférence ABC dans le domaine de l'apprentissage automatique : AbcRanger, une bibliothèque de forêts aléatoires optimisée pour ABC.

    Francois david COLLIN, Arnaud ESTOUP, Jean michel MARIN, Louis RAYNAL
    JOBIM 2020 | 2020
    La bibliothèque AbcRanger fournit des méthodologies pour le choix de modèles et l'estimation de paramètres basés sur des forêts aléatoires rapides et évolutives, adaptées à des ensembles de données de grande taille et/ou de haute dimension. La bibliothèque, initialement prévue pour le cadre ABC de génétique des populations DIYABC, a été généralisée à tout générateur de table de référence ABC. Au début, des problèmes de calcul ont été rencontrés avec l'ABC-Random Forest de référence. Ces problèmes ont été diagnostiqués par nous comme une friction entre la configuration "stricte" de l'apprentissage automatique et le contexte ABC, et cela nous a incité à modifier l'implémentation C++ des forêts aléatoires de pointe, ranger, pour l'adapter aux besoins de ABC : les arbres de décision potentiellement "profonds" ne sont plus stockés en mémoire, mais sont traités par lots en parallèle. Nous nous sommes concentrés sur l'extensibilité de la mémoire et des threads, la facilité d'utilisation (ensemble minimal d'hyperparamètres). Des interfaces R et python sont fournies.
  • Mesures de surveillance dynamique.

    Sophie MIALLARET, Arnaud GUILLIN, Anne francoise YAO, Vincent SAPIN, Denys POMMERET, Laurence REBOUL, Hacene DJELLOUT, Jean michel MARIN, Sophie DABO NIANG
    2019
    Les mesures sont des actes quotidiens, elles nous donnent beaucoup d'informations et permettent de prendre des décisions. L'analyse des mesures peut nous permettre d'en apprendre plus sur notre environnement, mais l'erreur d'une mesure peut avoir des conséquences importantes dans certains domaines. Dans une première partie, nous proposons, grâce à l'étude de mesures d'analyses sanguines réalisées au CHU de Clermont-Ferrand, une procédure permettant de détecter les dérives des analyseurs de laboratoires de biologie médicale, se basant sur les mesures d'analyses de patients. Après une analyse descriptive des données, la méthode mise en place, utilisant des méthodes de détection de ruptures de séries temporelles, est testée pour des simulations de ruptures représentant des décalages, des imprécisions ou des dérives d'analyseurs pour différents paramètres biologiques mesurés. La méthode est adaptée pour deux scénarios : lorsque l'on connaît ou non le service hospitalier des patients. L'étude est complétée par une analyse de l'impact de l'incertitude de mesure sur les analyses des patients. Dans une seconde partie nous étudions des mesures de formes de cendres volcaniques réalisées au Laboratoire Magmas et Volcans de l'Université Clermont Auvergne, dans le but de déterminer un lien entre les lieux de collecte et les formes des particules. Après avoir montré la dépendance entre ces paramètres, nous proposons, grâce une méthode de classification, un regroupement des particules représentant différentes populations dépendantes de la distance entre les lieux de collecte et le cratère du volcan.
  • Cohérence de l'échantillonnage adaptatif à importances multiples.

    Jean michel MARIN, Pierre PUDLO, Mohammed SEDKI
    Bernoulli | 2019
    Pas de résumé disponible.
  • Application de l'ABC pour déduire l'histoire génétique des populations de chasseurs-cueilleurs pygmées d'Afrique centrale occidentale.

    Arnaud ESTOUP, Alexandre DEHNE GARCIA, Paul VERDU, Jean michel MARIN, Christian ROBERT, Jean marie CORNUET, Pierre PUDLO
    Handbook of Approximate Bayesian Computation | 2018
    Pas de résumé disponible.
  • Solutions informatiques pour l'inférence bayésienne dans les modèles de mélange.

    Christian ROBERT, Gilles CELEUX, Kaniav KAMARY, Gertraud MALSINER WALLI, Jean michel MARIN
    Handbook of Mixture Analysis | 2018
    Ce chapitre passe en revue les méthodes de Monte Carlo les plus courantes pour simuler à partir d'une distribution postérieure associée à un mélange et mène quelques expériences sur la robustesse de l'échantillonneur de Gibbs dans des paramètres gaussiens de haute dimension. Il s'agit d'un chapitre préparé pour le prochain "Handbook of Mixture Analysis".
  • Modélisation de l'expression des gènes à partir de données de séquence ADN.

    May TAHA, Chloe BESSIERE, Florent PETITPREZ, Jimmy VANDEL, Jean michel MARIN, Laurent BREHELIN, Sophie LEBRE, Charles henri LECELLIER
    JdS 2017, 49èmes Journées de Statistique de la SFdS | 2017
    L'expression des gènes est étroitement contrôlée pour assurer une grande variété de fonctions et de types cellulaires. Le développement des maladies, en particulier les cancers, est invariablement lié à la dérégulation de ces contrôles. Notre objectif est de modéliser le lien entre l'expression des gènes et la composition nucléotidique des différentes régions régulatrices du génome. Nous proposons d'aborder ce problème dans un cadre de régression avec une approche Lasso couplée à un arbre de régression. Nous utilisons exclusivement des données de séquences et nous apprenons un modèle différent pour chaque type cellulaire. Nous montrons (i) que les différentes régions régulatrices apportent des informations diffé-rentes et complémentaires et (ii) que la seule information de leur composition nucléotidique permet de prédire l'expression des gènes avec une erreur comparable à celle obtenue en utilisant des données expérimentales. En outre, le modèle linéaire appris n'est pas aussi performant pour tous les gènes, mais modélise mieux certaines classes de gènes avec des compositions nucléotidiques particulières.
  • Quelques discussions sur le document lu "Beyond subjective and objective in statistics" par A. Gelman et C. Hennig.

    Christian p. ROBERT, Gilles CELEUX, Jack JEWSON, Julie JOSSE, Jean michel MARIN
    2017
    Cette note est un recueil de plusieurs discussions de l'article " Beyond subjective and objective in statistics ", lu par A. Gelman et C. Hennig à la Royal Statistical Society le 12 avril 2017, et à paraître dans le Journal of the Royal Statistical Society, Series A.
  • Détecter une contraction passée de la taille d'une population en utilisant l'homozygotie des haplotypes.

    C MERLE, Jean michel MARIN, F. ROUSSET, Raphael LEBLOIS
    Mathematical and Computational Evolutionnary Biology 2016 | 2016
    Pas de résumé disponible.
  • Détecter une contraction passée de la taille d'une population en utilisant des séries d'homozygotie.

    Coralie MERLE, Raphael LEBLOIS, Jean michel MARIN, Francois ROUSSET
    48èmes Journées de Statistique de la SFdS | 2016
    Pas de résumé disponible.
  • Une approche bayésienne entièrement objective pour le problème de Behrens-Fisher en utilisant des études historiques.

    Antoine BARBIERI, Jean michel MARIN, Karine FLORIN
    2016
    Pour les expériences de recherche in vivo avec des échantillons de petite taille et des données historiques disponibles, nous proposons une méthode bayésienne séquentielle pour le problème de Behrens-Fisher. Nous le considérons comme une question de choix de modèle avec deux modèles en compétition : un pour lequel les deux attentes sont égales et un pour lequel elles sont différentes. Le choix entre les deux modèles est effectué par une analyse bayésienne, basée sur un choix robuste de prieurs objectifs et subjectifs combinés, fixés sur l'espace des paramètres et sur l'espace des modèles. Trois étapes sont nécessaires pour évaluer la probabilité postérieure de chaque modèle en utilisant deux ensembles de données historiques similaires à celui qui nous intéresse. En partant de l'antériorité de Jeffreys, une postériorité utilisant un premier ensemble de données historiques est déduite et permet de calibrer les antériorités informatives Normal-Gamma pour l'analyse du deuxième ensemble de données historiques, en plus d'une antériorité uniforme sur l'espace des modèles. À partir de cette deuxième étape, une nouvelle postérieure sur l'espace des paramètres et l'espace des modèles peut être utilisée comme antériorité informative objective pour la dernière analyse bayésienne. Les méthodes bayésiennes et fréquentistes ont été comparées sur des données simulées et réelles. Conformément aux recommandations de la FDA, le contrôle des taux d'erreur de type I et de type II a été évalué. La méthode proposée les contrôle même si les expériences historiques ne sont pas complètement similaires à celle d'intérêt.
  • Essentiels bayésiens avec R.

    Jean michel MARIN, Christian ROBERT
    2014
    Ce livre sur la modélisation bayésienne constitue une entrée autonome dans le domaine de la statistique bayésienne computationnelle. En se concentrant sur les modèles statistiques les plus courants et en s'appuyant sur des ensembles de données réels et un paquetage R (CRAN) complet appelé bayess, l'ouvrage fournit une méthodologie opérationnelle pour effectuer des inférences bayésiennes, plutôt que de se concentrer sur ses justifications théoriques et philosophiques. Les lecteurs sont invités à participer aux situations réelles d'analyse de données décrites ici dès le début. Les enjeux sont élevés et le lecteur détermine le résultat. Une attention particulière est accordée à la dérivation des distributions antérieures dans chaque cas et des solutions de référence spécifiques sont données pour chacun des modèles. De même, les détails informatiques sont élaborés pour conduire le lecteur vers une programmation efficace des méthodes données dans le livre. En particulier, tous les codes R sont discutés avec suffisamment de détails pour les rendre facilement compréhensibles et extensibles. Cet ouvrage fonctionne en conjonction avec le paquetage bayess. Bayesian Essentials with R peut être utilisé comme manuel scolaire au niveau du premier et du deuxième cycle, comme en témoignent les cours donnés à l'Université Paris Dauphine (France), à l'Université de Canterbury (Nouvelle-Zélande) et à l'Université de Colombie-Britannique (Canada). Il est particulièrement utile aux étudiants des programmes de diplômes professionnels et aux scientifiques pour analyser les données à la manière bayésienne. Le texte enrichira également les cours d'introduction aux statistiques bayésiennes. Les conditions préalables à l'utilisation de ce livre sont une formation de premier cycle en probabilités et en statistiques, mais pas en statistiques bayésiennes. L'un des points forts du texte est l'accent mis sur le rôle des modèles dans l'analyse statistique. Il s'agit de la nouvelle édition, entièrement révisée, de l'ouvrage Bayesian Core : A Practical Approach to Computational Bayesian Statistics.
Les affiliations sont détectées à partir des signatures des publications identifiées dans scanR. Un auteur peut donc apparaître affilié à plusieurs structures ou tutelles en fonction de ces signatures. Les dates affichées correspondent seulement aux dates des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr