Agrégation à l'aide d'un compromis entre les entrées et les sorties.

Auteurs

FISCHER Aurelie
MOUGEOT Mathilde

Date de publication

2019

Type de publication

Article de journal

Résumé Dans cet article, nous introduisons une nouvelle stratégie d'apprentissage basée sur une idée séminale de Mojirsheibani (1999, 2000, 2002a, 2002b), qui a proposé une méthode intelligente pour combiner plusieurs classificateurs, en s'appuyant sur une notion de consensus. Dans de nombreuses méthodes d'agrégation, la prédiction pour une nouvelle observation x est calculée en construisant une combinaison linéaire ou convexe sur une collection d'estimateurs de base r1(x), . , rm(x) préalablement calibrés en utilisant un ensemble de données d'entraînement. Mojirsheibani propose de calculer la prédiction associée à une nouvelle observation en combinant des sorties sélectionnées des exemples d'apprentissage. La sortie d'un exemple d'apprentissage est sélectionnée si un certain consensus est observé : les prédictions calculées pour l'exemple d'apprentissage avec les différentes machines doivent être " similaires " à la prédiction de la nouvelle observation. Cette approche a été récemment étendue au contexte de la régression dans Biau et al. (2016). Dans le schéma original, la condition d'accord est en fait requise pour tous les estimateurs individuels, ce qui semble inadéquat s'il y a un mauvais estimateur initial. En pratique, quelques désaccords sont autorisés . pour établir les résultats théoriques, la proportion d'estimateurs satisfaisant la condition doit tendre vers 1. Dans cet article, nous proposons une procédure alternative, mélangeant les idées de consensus précédentes sur les prédictions avec la distance euclidienne calculée entre les entrées. Ceci peut être considéré comme une approche alternative permettant de réduire l'effet d'un éventuel mauvais estimateur dans la liste initiale, en utilisant une contrainte sur les entrées. Nous prouvons la cohérence de notre stratégie en classification et en régression. Nous fournissons également quelques expériences numériques sur des données simulées et réelles pour illustrer les avantages de cette nouvelle méthode d'agrégation. Dans l'ensemble, notre étude pratique montre que notre méthode peut être beaucoup plus performante que la technique de combinaison originale et, en particulier, présenter une variance bien moindre. Nous montrons également sur des exemples simulés que cette procédure de mélange des entrées et des sorties est toujours robuste aux entrées de haute dimension.

Éditeur

Elsevier BV

Voir la publication

Thématiques de la publication

Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr