Régression logistique avec covariables manquantes -- Estimation des paramètres, sélection du modèle et prédiction.

Auteurs
Date de publication
2018
Type de publication
Autre
Résumé La régression logistique est une méthode de classification courante dans l'apprentissage supervisé. Étonnamment, il existe très peu de solutions pour l'effectuer et sélectionner des variables en présence de valeurs manquantes. Nous développons une approche complète, comprenant l'estimation des paramètres et de la variance des estimateurs, la dérivation des intervalles de confiance et une procédure de sélection de modèle, pour les cas où les valeurs manquantes peuvent se trouver n'importe où dans les covariables. En organisant bien les différents modèles d'absence dans chaque observation, nous proposons une version d'approximation stochastique de l'algorithme EM basée sur l'échantillonnage de Metropolis-Hasting, afin d'effectuer une inférence statistique pour la régression logistique avec des données incomplètes. Nous abordons également le problème de la prédiction pour un nouvel individu avec des valeurs manquantes, qui n'est jamais abordé. La méthodologie est efficace sur le plan informatique, et ses bonnes propriétés de couverture et de sélection des variables sont démontrées dans une étude de simulation où nous comparons ses performances à celles d'autres méthodes. Par exemple, la méthode populaire d'imputation multiple par équation chaînée peut conduire à des estimations biaisées alors que notre méthode est non biaisée. Nous illustrons ensuite la méthode sur un ensemble de données de patients gravement traumatisés provenant d'hôpitaux parisiens afin de prédire l'occurrence d'un choc hémorragique, une cause majeure de décès précoce évitable dans les cas de traumatismes graves. L'objectif est de consolider la procédure actuelle du drapeau rouge, une alerte binaire identifiant les patients présentant un risque élevé d'hémorragie grave. La méthodologie est implémentée dans le package R misaem.
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr