Réseaux de Neumann : programmation différentielle pour l'apprentissage supervisé avec des valeurs manquantes.

Auteurs
  • LE MORVAN Marine
  • JOSSE Julie
  • MOREAU Thomas
  • SCORNET Erwan
  • VAROQUAUX Gael
Date de publication
2020
Type de publication
Autre
Résumé La présence de valeurs manquantes rend l'apprentissage supervisé beaucoup plus difficile. En effet, des travaux antérieurs ont montré que même lorsque la réponse est une fonction linéaire des données complètes, le prédicteur optimal est une fonction complexe des entrées observées et de l'indicateur d'absence. Par conséquent, les complexités de calcul ou d'échantillonnage des approches cohérentes dépendent du nombre de motifs manquants, qui peut être exponentiel dans le nombre de dimensions. Dans ce travail, nous dérivons la forme analytique du prédicteur optimal sous une hypothèse de linéarité et divers mécanismes de données manquantes, y compris les données manquantes au hasard (MAR) et l'auto-masquage (Missing Not At Random). Sur la base d'une approximation en série de Neumann du prédicteur optimal, nous proposons une nouvelle architecture de principe, appelée réseaux de Neumann. Leur originalité et leur force proviennent de l'utilisation d'un nouveau type de non-linéarité : la multiplication par l'indicateur de manque. Nous fournissons une limite supérieure sur le risque de Bayes des réseaux de Neumann, et nous montrons qu'ils ont une bonne précision prédictive avec un nombre de paramètres et une complexité de calcul indépendants du nombre de modèles de données manquantes. Par conséquent, ils s'adaptent bien aux problèmes comportant de nombreuses caractéristiques et restent statistiquement efficaces pour les échantillons de taille moyenne. De plus, nous montrons que, contrairement aux procédures utilisant l'EM ou l'imputation, elles sont robustes au mécanisme de données manquantes, y compris les paramètres MNAR difficiles tels que l'auto-masquage.
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr