Quelle est une bonne imputation à prévoir avec des valeurs manquantes ?

Auteurs
  • LE MORVAN Marine
  • JOSSE Julie
  • SCORNET Erwan
  • VAROQUAUX Gael
Date de publication
2021
Type de publication
Autre
Résumé Comment apprendre un bon prédicteur sur des données avec des valeurs manquantes ? La plupart des efforts se concentrent d'abord sur l'imputation aussi bien que possible et ensuite sur l'apprentissage sur les données complétées pour prédire le résultat. Pourtant, cette pratique très répandue n'a aucun fondement théorique. Nous montrons ici que pour presque toutes les fonctions d'imputation, une procédure d'imputation puis de régression avec un apprenant puissant est optimale du point de vue de Bayes. Ce résultat est valable pour tous les mécanismes de valeurs manquantes, contrairement aux résultats statistiques classiques qui exigent des paramètres de valeurs manquantes au hasard pour utiliser l'imputation dans la modélisation probabiliste. De plus, il implique que l'imputation conditionnelle parfaite peut ne pas être nécessaire pour une bonne prédiction asymptotique. En fait, nous montrons que sur des données parfaitement imputées, la meilleure fonction de régression sera généralement discontinue, ce qui la rend difficile à apprendre. Le fait de concevoir l'imputation de manière à laisser la fonction de régression inchangée ne fait que déplacer le problème vers l'apprentissage d'imputations discontinues. Nous suggérons plutôt qu'il est plus facile d'apprendre l'imputation et la régression conjointement. Nous proposons une telle procédure, en adaptant NeuMiss, un réseau neuronal capturant les liens conditionnels entre les variables observées et non observées, quel que soit le modèle de valeur manquante. Les expériences confirment que l'imputation et la régression conjointes grâce à NeuMiss sont meilleures que diverses procédures en deux étapes dans nos expériences avec un nombre fini d'échantillons.
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr