Imputation multiple pour données mixtes par analyse factorielle.

Auteurs
  • AUDIGIER Vincent
  • HUSSON Francois
  • JOSSE Julie
  • RESCHE RIGON Matthieu
Date de publication
2019
Type de publication
Article de conférence
Résumé La prise en compte de données toujours plus nombreuses complexifie sans cesse leur analyse. Cette complexité se traduit notamment par des variables de types différents, la présence de données manquantes, et un grand nombre de variables et/ou d'observations. L'application de méthodes statistiques dans ce contexte est généralement délicate. L'objet de cette présentation est de proposer une nouvelle méthode d'imputation multiple basée sur l'analyse factorielle des données mixtes (AFDM). L'AFDM est une méthode d'analyse factorielle adaptée pour des jeux de données comportant des variables quantita-tives et qualitatives, dont le nombre peut excéder, ou non, le nombre d'observations. En vertu de ses propriétés, le développement d'une méthode d'imputation multiple basée sur l'AFDM permet l'inférence sur des variables quantitatives et qualitatives incomplètes, en grande et petite dimension. La méthode d'imputation multiple proposée utilise une approche bootstrap pour refléter l'incertitude sur les composantes principales et vecteurs propres de l'AFDM, utilisés ici pour prédire (imputer) les données. Chaque réplication bootstrap fournit alors une prédiction pour l'ensemble des données incomplètes du jeu de données. Ces prédictions sont ensuite bruitées pour refléter la distribution des données. On obtient ainsi autant de tableaux imputés que de réplications bootstrap. Après avoir rappelé les principes de l'imputation multiple, nous présenterons notre méthodologie. La méthode proposée seraévaluée par simulation et comparée aux méthodes de références : imputation séquentielle par modèle linéaire généralisé, imputation par modèle de mélanges et par "general location model". La méthode proposée permet d'ob-tenir des estimations ponctuelles sans biais de différents paramètres d'intérêt ainsi que des intervalles de confiance au taux de recouvrement attendu. De plus, elle peut s'appliquer 1 sur des jeux de données de nature variée et de dimensions variées, permettant notamment de traiter les cas où le nombre d'observations est plus petit que le nombre de variables. Abstract.
Thématiques de la publication
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr