Regroupement basé sur un modèle avec des données manquantes non aléatoires. Mécanisme manquant.

Auteurs
  • LAPORTE Fabien
  • BIERNACKI Christophe
  • CELEUX Gilles
  • JOSSE Julie
Date de publication
2019
Type de publication
poster
Résumé Depuis les années 90, le clustering basé sur un modèle est largement utilisé pour classer les données. Aujourd'hui, avec l'augmentation des données disponibles, les valeurs manquantes sont plus fréquentes. Nous défendons le besoin d'intégrer le mécanisme de manque directement dans l'étape de modélisation du clustering. Il existe trois types de données manquantes : manquantes complètement au hasard (MCAR), manquantes au hasard (MAR) et manquantes non au hasard (MNAR). Dans toutes les situations, la régression logistique est proposée comme un modèle candidat naturel et exible. Dans ce contexte uni, les critères standards de sélection de modèles peuvent être utilisés pour choisir entre ces différents mécanismes de données manquantes, simultanément avec le nombre de clusters. L'intérêt pratique de notre proposition est illustré sur des données issues d'études médicales présentant de nombreuses données manquantes.
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr