Apprentissage automatique robuste par la médiane des moyennes : théorie et pratique.

Auteurs
Date de publication
2019
Type de publication
Article de journal
Résumé Nous présentons de nouveaux estimateurs pour l'apprentissage automatique robuste basés sur les estimateurs de la moyenne des variables aléatoires à valeur réelle (MOM). Ces estimateurs atteignent des taux de convergence optimaux sous des hypothèses minimales sur l'ensemble de données. L'ensemble de données peut également avoir été corrompu par des valeurs aberrantes sur lesquelles aucune hypothèse n'est accordée. Nous analysons également ces nouveaux estimateurs avec des outils standard de la statistique robuste. En particulier, nous revisitons le concept de point de rupture. Nous modifions la définition originale en étudiant le nombre de valeurs aberrantes qu'un ensemble de données peut contenir sans détériorer les propriétés d'estimation d'un estimateur donné. Cette nouvelle notion de nombre de rupture, qui tient compte des performances statistiques des estimateurs, est de nature non asymptotique et adaptée à l'apprentissage automatique. Nous avons prouvé que le nombre de pannes de notre estimateur est de l'ordre de (nombre d'observations)*(taux de convergence). Par exemple, le nombre de panne de nos estimateurs pour le problème de l'estimation d'un vecteur à d dimensions avec une variance de bruit sigma^2 est sigma^2d et il devient sigma^2 s log(d/s) lorsque ce vecteur n'a que s composantes non nulles. Au-delà de ce point de rupture, nous avons prouvé que le taux de convergence atteint par notre estimateur est (nombre de valeurs aberrantes) divisé par (nombre d'observation). Outre ces garanties théoriques, l'amélioration majeure apportée par ces nouveaux estimateurs est qu'ils sont facilement calculables en pratique. En fait, tout algorithme utilisé pour approximer le minimiseur de risque empirique standard (ou ses versions régularisées) possède une version robuste approximant nos estimateurs. Comme preuve de concept, nous étudions de nombreux algorithmes pour l'estimateur LASSO classique. Un sous-produit des algorithmes MOM est une mesure de la profondeur des données qui peut être utilisée pour détecter les valeurs aberrantes.
Éditeur
Institute of Mathematical Statistics
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr