Imputation de données mixtes à l'aide de la décomposition en valeurs singulières à plusieurs niveaux.

Auteurs
  • HUSSON Francois
  • JOSSE Julie
  • NARASIMHAN Balasubramanian
  • ROBIN Genevieve
Date de publication
2019
Type de publication
Article de journal
Résumé L'analyse statistique de grands ensembles de données offre de nouvelles possibilités pour mieux comprendre de nombreux processus. Pourtant, l'accumulation de données implique souvent d'assouplir les procédures d'acquisition ou de combiner des sources diverses. Par conséquent, ces ensembles de données contiennent souvent des données mixtes, c'est-à-dire à la fois quantitatives et qualitatives et de nombreuses valeurs manquantes. En outre, les données agrégées présentent une structure naturelle \textit{multilevel}, où les individus ou les échantillons sont imbriqués dans différents sites, comme des pays ou des hôpitaux. L'imputation de données multiniveaux a donc suscité une certaine attention récemment, mais les solutions actuelles ne sont pas conçues pour traiter des données mixtes et souffrent d'importants inconvénients tels que leur coût de calcul. Dans cet article, nous proposons une méthode d'imputation unique pour les données multiniveaux, qui peut être utilisée pour compléter des données quantitatives, catégorielles ou mixtes. La méthode est basée sur la décomposition de la valeur singulière (SVD) multiniveau, qui consiste à décomposer la variabilité des données en deux composantes, la variabilité entre et au sein des groupes, et à effectuer la SVD sur les deux parties. Nous montrons par une étude de simulation que, par rapport à ses concurrents, la méthode présente les grands avantages de pouvoir traiter des ensembles de données de tailles diverses et d'être plus rapide en termes de calcul. En outre, elle est la première à ce jour à traiter des données mixtes. Nous appliquons la méthode pour imputer un ensemble de données médicales résultant de l'agrégation de plusieurs ensembles de données provenant de différents hôpitaux. Cette application s'inscrit dans le cadre d'un projet plus large sur les patients traumatisés. Pour surmonter les obstacles liés à l'agrégation de données médicales, nous nous tournons vers le calcul distribué. La méthode est implémentée dans un package R.
Éditeur
Informa UK Limited
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr