Imputation et estimation à faible rang avec des données manquantes non aléatoires.

Auteurs

SPORTISSE Aude
BOYER Claire
JOSSE Julie

Date de publication

2019

Type de publication

Autre

Résumé Les valeurs manquantes constituent un défi pour l'analyse des données, car de nombreuses méthodes d'apprentissage supervisées et non supervisées ne peuvent être appliquées directement à des données incomplètes. La complétion de matrices basée sur des hypothèses de rangs bas est une solution très puissante pour traiter les valeurs manquantes. Cependant, les méthodes existantes ne prennent pas en compte le cas des valeurs manquantes informatives qui sont largement rencontrées dans la pratique. Cet article propose des méthodes de complétion de matrice pour récupérer les données manquantes non aléatoires (MNAR). Notre première contribution est de suggérer une stratégie d'estimation basée sur un modèle en modélisant la distribution des mécanismes manquants. Un algorithme EM est ensuite mis en œuvre, impliquant un algorithme FISTA (Fast Iterative Soft-Thresholding Algorithm). Notre deuxième contribution est de suggérer une estimation de substitution efficace en termes de calcul en prenant implicitement en compte la distribution conjointe des données et du mécanisme manquant : la matrice de données est concaténée avec le codage de masque pour les valeurs manquantes. Une structure de bas rang pour la famille exponentielle est supposée sur cette nouvelle matrice, afin de coder les liens entre les variables et les mécanismes manquants. La méthodologie qui a le grand avantage de traiter différents mécanismes de valeurs manquantes est robuste aux erreurs de spécification du modèle.

Voir la publication

Thématiques de la publication

Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr