Extension du calcul bayésien approximatif à l'apprentissage automatique supervisé pour déduire l'histoire démographique à partir des polymorphismes génétiques en utilisant DIYABC Random Forest.

Auteurs
  • COLLIN Francois david
  • DURIF Ghislain
  • RAYNAL Louis
  • LOMBAERT Eric
  • GAUTIER Mathieu
  • VITALIS Renaud
  • MARIN Jean michel
  • ESTOUP Arnaud
Date de publication
2021
Type de publication
Article de journal
Résumé Les méthodes basées sur la simulation telles que le calcul bayésien approximatif (ABC) sont bien adaptées à l'analyse de scénarios complexes de populations et d'histoire génétique des espèces. Dans ce contexte, les méthodes d'apprentissage automatique supervisé (SML) offrent des solutions statistiques attrayantes pour réaliser des inférences efficaces sur le choix des scénarios et l'estimation des paramètres. La méthode Random Forest (RF) est un ensemble puissant d'algorithmes SML utilisés pour les problèmes de classification ou de régression. La RF permet d'effectuer des inférences à un faible coût de calcul, sans sélection préliminaire des composantes pertinentes des statistiques sommaires ABC, et en contournant la dérivation des niveaux de tolérance ABC. Nous avons implémenté un ensemble d'algorithmes RF pour traiter les inférences en utilisant des ensembles de données simulées générées à partir d'une version étendue du simulateur génétique de population implémenté dans DIYABC v2.1.0. Le progiciel résultant, nommé DIYABC Random Forest v1.0, intègre deux fonctionnalités dans une interface conviviale : la simulation sous des scénarios évolutifs personnalisés de différents types de données moléculaires (microsatellites, séquences d'ADN ou SNP) et des traitements RF incluant des outils statistiques pour évaluer la puissance et la précision des inférences. Nous illustrons les fonctionnalités de DIYABC Random Forest v1.0 tant pour le choix des scénarios que pour l'estimation des paramètres par l'analyse d'ensembles de données pseudo-observées et réelles correspondant à des ensembles de données SNP de séquençage en pool et de séquençage individuel. En raison des propriétés inhérentes aux méthodes RF mises en œuvre et du grand vecteur de caractéristiques (y compris diverses statistiques sommaires et leurs combinaisons linéaires) disponible pour les données SNP, DIYABC Random Forest v1.0 peut contribuer efficacement à l'analyse de grands ensembles de données SNP pour faire des inférences sur les histoires génétiques complexes des populations.
Éditeur
Wiley
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr