Estimation et imputation dans l'analyse probabiliste en composantes principales avec des données manquantes non aléatoires.

Auteurs
Date de publication
2019
Type de publication
Autre
Résumé Les valeurs manquantes non aléatoires sont considérées comme non ignorables et nécessitent de définir un modèle pour le mécanisme des valeurs manquantes, ce qui implique un a priori fort sur la forme paramétrique de la distribution et rend les tâches d'inférence ou d'imputation plus complexes. Les méthodologies de traitement des valeurs MNAR se concentrent également sur des paramètres simples, en supposant qu'une seule variable (telle que la variable de résultat) comporte des entrées manquantes. Des travaux récents de Mohan et Pearl basés sur des modèles graphiques et la causalité montrent que des paramètres spécifiques de MNAR permettent de récupérer certains aspects de la distribution sans spécifier le mécanisme de MNAR. Nous poursuivons cette ligne de recherche. En considérant une matrice de données générée à partir d'un modèle d'analyse probabiliste en composantes principales (PPCA) contenant plusieurs variables MNAR, pas nécessairement sous le même mécanisme de manques auto-masqués, nous proposons des estimateurs pour les moyennes, variances et covariances des variables et étudions leur cohérence. Les estimateurs présentent le grand avantage d'être calculés en utilisant uniquement les données observées. En outre, nous proposons une méthode d'imputation de la matrice de données et une estimation de la matrice de chargement PPCA. Nous comparons notre proposition avec les résultats obtenus pour les valeurs manquantes ignorables basés sur l'utilisation de l'algorithme d'espérance-maximisation.
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr