Imputation non paramétrique par profondeur de données.

Auteurs
Date de publication
2019
Type de publication
Article de journal
Résumé La méthodologie présentée pour l'imputation unique des valeurs manquantes emprunte l'idée de la profondeur des données --- une mesure de centralité définie pour un point arbitraire de l'espace par rapport à une distribution de probabilité ou un nuage de données. Elle consiste en une maximisation itérative de la profondeur de chaque observation avec des valeurs manquantes, et peut être employée avec toute fonction de profondeur statistique correctement définie. À chaque itération, l'imputation se réduit à l'optimisation d'une fonction quadratique, linéaire ou quasi-concave, résolue respectivement de manière analytique, par programmation linéaire ou par la méthode de Nelder-Mead. En étant capable de saisir la topologie sous-jacente des données, la procédure est sans distribution, permet d'imputer près des données, préserve les possibilités de prédiction différentes des méthodes d'imputation locales (k-plus proches voisins, forêt aléatoire), et présente une robustesse et des propriétés asymptotiques intéressantes sous symétrie elliptique. On montre que son cas particulier --- lorsqu'on utilise la profondeur de Mahalanobis --- a un lien direct avec des traitements bien connus pour le modèle normal multivarié, comme la régression itérée ou l'ACP régularisée. La méthodologie est étendue à l'imputation multiple pour les données issues d'une distribution elliptiquement symétrique. Des études de simulation et de données réelles opposent positivement la procédure aux alternatives populaires existantes. La méthode a été implémentée sous la forme d'un paquetage R.
Éditeur
Informa UK Limited
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr