Traitement des données manquantes dans le regroupement à base de modèle par un modèle MNAR.

Auteurs
  • BIERNACKI Christophe
  • CELEUX Gilles
  • JOSSE Julie
  • LAPORTE Fabien
Date de publication
2019
Type de publication
Article de conférence
Résumé Depuis les années 90, le clustering basé sur un modèle est largement utilisé pour classer les données. Aujourd'hui, avec l'augmentation des données disponibles, les valeurs manquantes sont plus fréquentes. Les méthodes traditionnelles pour les traiter consistent à obtenir un ensemble de données remplies, soit en éliminant les valeurs manquantes, soit en les imputant. Dans le premier cas, certaines informations sont perdues. Dans le second cas, l'objectif final du clustering n'est pas pris en compte par l'étape d'imputation. Ainsi, les deux solutions risquent de brouiller le résultat de l'estimation du clustering. Alternativement, nous défendons la nécessité d'intégrer le mécanisme de manque directement dans l'étape de modélisation du clustering. Il existe trois types de données manquantes : complètement manquantes au hasard (MCAR), manquantes au hasard (MAR) et non manquantes au hasard (MNAR). Dans toutes les situations, la régression logistique est proposée comme un modèle candidat naturel et flexible. En particulier, sa propriété de flexibilité permet de concevoir certaines variantes parcimonieuses significatives, comme la dépendance aux valeurs manquantes ou la dépendance à l'étiquette de la grappe. Dans ce contexte unifié, les critères standards de sélection de modèles peuvent être utilisés pour choisir entre ces différents mécanismes de données manquantes, simultanément avec le nombre de clusters. L'intérêt pratique de notre proposition est illustré sur des données issues d'études médicales présentant de nombreuses données manquantes.
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr