Imputation et estimation à faible rang avec des données manquantes non aléatoires.

Auteurs
Date de publication
2020
Type de publication
Article de journal
Résumé Les valeurs manquantes constituent un défi pour l'analyse des données, car de nombreuses méthodes d'apprentissage supervisé et non supervisé ne peuvent être appliquées directement à des données incomplètes. La complétion de matrices basée sur des hypothèses de rangs bas est une solution très puissante pour traiter les valeurs manquantes. Cependant, les méthodes existantes ne prennent pas en compte le cas des valeurs manquantes informatives qui sont largement rencontrées dans la pratique. Cet article propose des méthodes de complétion de matrice pour récupérer les données manquantes non aléatoires (MNAR). Notre première contribution est de suggérer une stratégie d'estimation basée sur un modèle en modélisant la distribution des mécanismes manquants. Un algorithme EM est ensuite mis en œuvre, impliquant un algorithme FISTA (Fast Iterative Soft-Thresholding Algorithm). Notre deuxième contribution est de suggérer une estimation de substitution efficace en termes de calcul en prenant implicitement en compte la distribution conjointe des données et du mécanisme manquant : la matrice de données est concaténée avec le codage de masque pour les valeurs manquantes. une structure de rang bas pour la famille exponentielle est supposée sur cette nouvelle matrice, afin de coder les liens entre les variables et les mécanismes manquants. La méthodologie qui a le grand avantage de traiter différents mécanismes de valeurs manquantes est robuste aux erreurs de spécification du modèle. Les performances de nos méthodes sont évaluées sur des données réelles collectées à partir d'un registre de traumatismes (TraumaBase ) contenant des informations cliniques sur plus de vingt mille patients sévèrement traumatisés en France. L'objectif est alors de prédire si les médecins doivent administrer de l'acide tranexomique aux patients souffrant de lésions cérébrales traumatiques, ce qui permettrait de limiter les saignements excessifs.
Éditeur
Springer Science and Business Media LLC
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr