Sur la cohérence de l'apprentissage supervisé avec des valeurs manquantes.

Auteurs
  • JOSSE Julie
  • PROST Nicolas
  • SCORNET Erwan
  • VAROQUAUX Gael
Date de publication
2019
Type de publication
Autre
Résumé Dans de nombreux contextes d'application, les données présentent des caractéristiques manquantes qui rendent l'analyse des données difficile. Une littérature abondante traite des données manquantes dans un cadre inférentiel : estimation des paramètres et de leur variance à partir de tableaux incomplets. Ici, nous considérons des paramètres d'apprentissage supervisé : prédire une cible lorsque des valeurs manquantes apparaissent à la fois dans les données d'apprentissage et de test. Nous montrons la cohérence de deux approches en matière de prédiction. Un résultat frappant est que la méthode largement utilisée d'imputation avec la moyenne avant l'apprentissage est cohérente lorsque les valeurs manquantes ne sont pas informatives. Cela contraste avec les paramètres inférentiels où l'on reproche à l'imputation de la moyenne de fausser la distribution des données. Le fait qu'une approche aussi simple puisse être cohérente est important dans la pratique. Nous montrons également qu'un prédicteur adapté à des observations complètes peut prédire de manière optimale sur des données incomplètes, grâce à l'imputation multiple. Nous analysons ensuite les arbres de décision. Ceux-ci peuvent naturellement s'attaquer à la minimisation du risque empirique avec des valeurs manquantes, en raison de leur capacité à traiter la nature semi-discrète des variables incomplètes. Après avoir comparé les différentes stratégies de valeurs manquantes théoriques et empiriques dans les arbres, nous recommandons l'utilisation de la méthode "valeurs manquantes incorporées dans l'attribut", car elle peut traiter les valeurs manquantes non informatives et informatives. -0.05 0 +0.05 -0.02 -0.01 0 +0.01 +0.02 -0.1 -0.05 0 +0.05 +0.1 0. M I A 2. i m p u t e m e a n + m a s k 3. i m p u t e m e a n 4. i m p u t e G a u s s i a n + m a s k 5. i m p u t e G a u s s i a n 6. r p a r t (s u r r o g a t e s ) + m a s k 7. r p a r t (s u r r o g a t e s ) 8. c t r e e (s u r r o g a t e s ) + m a s k 9. c t r e e (s u r r o g a t e s ) 0. M I A 2. i m p u t e m e a n + m a s k 3. i m p u t e m e a n 4. i m p u t e G a u s s i a n + m a s k 5. i m p u t e G a u s s i a n 0. M I A 1. b l o c k 2. i m p u t e m e a n + m a s k 3. i m p u t e m e a n 4. i m p u t e G a u s s i a n + m a s k 5. i m p u t e G a u s s i a n Variance relative expliquée.
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr