Modèle à faible rang avec covariables pour l'analyse des données de comptage.

Auteurs
  • ROBIN Genevieve
  • JOSSE Julie
  • MOULINES Eric
  • SARDY Sylvain
Date de publication
2017
Type de publication
Autre
Résumé Les données de comptage sont recueillies dans le cadre de nombreuses tâches scientifiques et techniques, notamment le traitement d'images, le séquençage de l'ARN d'une seule cellule et les études écologiques. Ces ensembles de données contiennent souvent des valeurs manquantes, par exemple parce que certains sites écologiques ne peuvent être atteints au cours d'une année donnée. En outre, dans de nombreux cas, des informations annexes sont également disponibles, par exemple des covariables sur les sites écologiques ou les espèces. Les méthodes à faible rang sont populaires pour débruiter et imputer les données de comptage, et bénéficient d'un important bagage théorique. Des extensions tenant compte des covariables ont été proposées, mais à notre connaissance, leurs propriétés théoriques et empiriques n'ont pas été étudiées de manière approfondie, et peu de logiciels sont disponibles pour les praticiens. Nous proposons une méthodologie complète appelée LORI (Low-Rank Interaction), comprenant un modèle de Poisson, un algorithme et une sélection automatique du paramètre de régularisation, pour analyser les tableaux de comptage avec covariables. Nous dérivons également une limite supérieure sur l'erreur d'estimation. Nous fournissons une étude de simulation avec des données synthétiques, révélant empiriquement que LORI améliore les méthodes de pointe en termes d'estimation et d'imputation des valeurs manquantes. Nous illustrons comment la méthode peut être interprétée par des représentations visuelles en analysant un ensemble de données bien connu sur l'abondance des plantes, et nous montrons que les résultats de LORI sont cohérents avec les résultats connus. Enfin, nous démontrons la pertinence de la méthode en analysant une table d'abondance d'oiseaux d'eau provenant de l'Office national français de la chasse et de la faune sauvage (ONCFS). La méthode est disponible dans le package R lori sur le Comprehensive Archive Network (CRAN).
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr