JOSSE Julie

< Retour à ILB Patrimoine
Thématiques des productions
Affiliations
  • 2016 - 2020
    Ecole Polytechnique
  • 2015 - 2020
    Centre de mathématiques appliquées
  • 2018 - 2020
    Centre de recherche Inria de Paris
  • 2015 - 2020
    Modélisation statistique pour les sciences du vivant
  • 2012 - 2016
    Institut de recherche mathématique de Rennes
  • 2019 - 2021
    Centre de recherche Inria Sophia Antipolis - Méditerranée
  • 2015 - 2020
    Détermination de Formes Et Identification
  • 2016 - 2017
    Institut national de recherche en informatique et en automatique
  • 2012 - 2016
    Institut national supérieur des sciences agronomiques, agroalimentaires, horticoles et du paysage
  • 2015 - 2016
    Sélection de modèles en apprentissage statistique
  • 2013 - 2015
    Institut national d'enseignement supérieur et de recherche agronomique et agroalimentaire de Rennes, Agrocampus Ouest
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • Trauma reloaded : Le registre des traumatismes à l'ère de la science des données.

    Jean denis MOYER, Sophie rym HAMADA, Julie JOSSE, Auliard OLIVIER, Tobias GAUSS
    Anaesthesia Critical Care & Pain Medicine | 2021
    Pas de résumé disponible.
  • Quelle est une bonne imputation à prévoir avec des valeurs manquantes ?

    Marine LE MORVAN, Julie JOSSE, Erwan SCORNET, Gael VAROQUAUX
    2021
    Comment apprendre un bon prédicteur sur des données avec des valeurs manquantes ? La plupart des efforts se concentrent d'abord sur l'imputation aussi bien que possible et ensuite sur l'apprentissage sur les données complétées pour prédire le résultat. Pourtant, cette pratique très répandue n'a aucun fondement théorique. Nous montrons ici que pour presque toutes les fonctions d'imputation, une procédure d'imputation puis de régression avec un apprenant puissant est optimale du point de vue de Bayes. Ce résultat est valable pour tous les mécanismes de valeurs manquantes, contrairement aux résultats statistiques classiques qui exigent des paramètres de valeurs manquantes au hasard pour utiliser l'imputation dans la modélisation probabiliste. De plus, il implique que l'imputation conditionnelle parfaite peut ne pas être nécessaire pour une bonne prédiction asymptotique. En fait, nous montrons que sur des données parfaitement imputées, la meilleure fonction de régression sera généralement discontinue, ce qui la rend difficile à apprendre. Le fait de concevoir l'imputation de manière à laisser la fonction de régression inchangée ne fait que déplacer le problème vers l'apprentissage d'imputations discontinues. Nous suggérons plutôt qu'il est plus facile d'apprendre l'imputation et la régression conjointement. Nous proposons une telle procédure, en adaptant NeuMiss, un réseau neuronal capturant les liens conditionnels entre les variables observées et non observées, quel que soit le modèle de valeur manquante. Les expériences confirment que l'imputation et la régression conjointes grâce à NeuMiss sont meilleures que diverses procédures en deux étapes dans nos expériences avec un nombre fini d'échantillons.
  • Débiasing Stochastic Gradient Descent pour gérer les valeurs manquantes.

    Aude SPORTISSE, Claire BOYER, Aymeric DIEULEVEUT, Julie JOSSE
    2020
    L'incomplétude des données à grande échelle est un problème majeur. Nous proposons un algorithme de gradient stochastique moyenné traitant les valeurs manquantes dans les modèles linéaires. Cette approche a le mérite de ne nécessiter aucune modélisation de la distribution des données et de tenir compte de la proportion hétérogène de valeurs manquantes. Nous prouvons que cet algorithme atteint un taux de convergence de O(1 n) à l'itération n, comme en l'absence de valeurs manquantes. Nous montrons le comportement de convergence et la pertinence de l'algorithme non seulement sur des données synthétiques mais aussi sur des ensembles de données réelles, y compris celles collectées dans des registres médicaux.
  • Hydroxychloroquine avec ou sans azithromycine et mortalité hospitalière ou sortie d'hôpital chez les patients hospitalisés pour une infection à COVID-19 : une étude de cohorte de 4 642 patients hospitalisés en France.

    Julie JOSSE, Alexandre GRAMFORT, Thomas MOREAU, Gael VAROQUAUX, Marc LAVIELLE
    2020
    Objectif Évaluer l'efficacité clinique de l'hydroxychloroquine (HCQ) orale avec ou sans azithromycine (AZI) pour prévenir le décès ou conduire à la sortie de l'hôpital. Conception Étude de cohorte rétrospective. Cadre Analyse des données des dossiers médicaux électroniques et des données administratives de l'entrepôt de données de l'Assistance Publique - Hôpitaux de Paris (AP-HP), dans 39 hôpitaux publics, Ile-de-France, France. Participants Tous les patients adultes hospitalisés présentant au moins un ARN du SRAS-CoV-2 documenté par PCR à partir d'un échantillon nasopharyngé entre le 1er février 2020 et le 6 avril 2020 étaient éligibles pour l'analyse. La population de l'étude a été limitée aux patients qui n'ont pas reçu les traitements COVID-19 évalués dans les essais en cours, notamment les antiviraux et les immunosuppresseurs. La fin du suivi a été définie comme la date du décès, la sortie du domicile, le 28e jour après l'admission, selon la première éventualité, ou la censure administrative le 4 mai 2020. Intervention Les patients ont ensuite été classés en 3 groupes : (i) recevant HCQ seul, (ii) recevant HCQ avec l'AZI, et (iii) ne recevant ni HCQ ni AZI. L'exposition à une association HCQ/AZI était définie comme une prescription simultanée des 2 traitements (plus ou moins un jour). Principaux critères d'évaluation Le critère d'évaluation principal était la mortalité à 28 jours, toutes causes confondues, en tant que critère de temps par rapport à l'événement dans le cadre d'une analyse de survie à risques concurrents. Le résultat secondaire était la sortie du domicile à 28 jours. Des estimations de l'effet moyen du traitement (ATE) pondérées par la probabilité inverse augmentée du traitement (AIPTW) ont été calculées pour tenir compte des facteurs de confusion. Résultats Un total de 4 642 patients (âge moyen : 66,1 +/- 18 ans. Hommes : 2 738 (59%)) ont été inclus, dont 623 (13,4%) ont reçu HCQ seul, 227 (5,9%) ont reçu HCQ plus AZI, et 3 792 (81,7%) aucun des deux médicaments. Les patients recevant "HCQ seul" ou "HCQ plus AZI" étaient plus souvent jeunes, de sexe masculin, fumeurs actuels et présentaient globalement un peu plus de comorbidités (obésité, diabète, maladies pulmonaires chroniques, maladies hépatiques), alors qu'aucune différence majeure n'était apparente dans les paramètres biologiques. Après prise en compte des facteurs de confusion, aucune différence statistiquement significative n'a été observée entre le groupe "HCQ" et le groupe "Aucun médicament" pour la mortalité à 28 jours : La différence absolue de l'AIPTW dans l'ATE était de +1,24% (-5,63 à 8,12), le ratio dans l'ATE de 1,05 (0,77 à 1,33). Les taux de sortie à 28 jours étaient statistiquement significativement plus élevés dans le groupe "HCQ" : AIPTW différence absolue en ATE (+11,1% [3,30 à 18,9]), ratio en ATE (1,25 [1,07 à 1,42]). En ce qui concerne le groupe "HCQ+AZI" par rapport à aucun autre médicament, des tendances pour des différences et des ratios significatifs dans l'ATE AIPTW ont été trouvées suggérant des taux de mortalité plus élevés dans le premier groupe (différence dans l'ATE +9,83% [-0,51 à 20,17], ratio dans l'ATE 1,40 [0,98 à 1,81].p=0,062). Conclusions En utilisant une large population non sélectionnée de patients hospitalisés pour une infection à COVID-19 dans 39 hôpitaux en France et des approches méthodologiques robustes, nous n'avons trouvé aucune preuve de l'efficacité de HCQ ou de HCQ combiné à l'AZI sur la mortalité à 28 jours. Nos résultats suggèrent un possible excès de risque de mortalité associé à HCQ combiné à l'AZI, mais pas à HCQ seul. Des taux significativement plus élevés de sortie à domicile ont été observés chez les patients traités par HCQ, un résultat nouveau qui mérite d'être confirmé par des études répétées. Dans l'ensemble, nos résultats soutiennent la nécessité de compléter les essais cliniques randomisés actuellement en cours.
  • Inférence statistique avec des données incomplètes et hautement dimensionnelles - modélisation de patients polytraumatisés.

    Wei JIANG, Julie JOSSE, Marc LAVIELLE, Bertrand THIRION, Daniel YEKUTIELI, Adeline LECLERCQ SAMSON, Pierre NEUVIAL, Daniel YEKUTIELI, Adeline LECLERCQ SAMSON
    2020
    Le problème des données manquantes existe depuis les débuts de l'analyse des données, car les valeurs manquantes sont liées au processus d'obtention et de préparation des données. Dans les applications des statistiques modernes et de l'apprentissage machine, où la collecte de données devient de plus en plus complexe et où de multiples sources d'information sont combinées, les grandes bases de données présentent souvent un nombre extraordinairement élevé de valeurs manquantes. Ces données présentent donc d'importants défis méthodologiques et techniques pour l'analyse : de la visualisation à la modélisation, en passant par l'estimation, la sélection des variables, les capacités de prédiction et la mise en oeuvre par des implémentations. De plus, bien que les données en grande dimension avec des valeurs manquantes soient considérées comme des difficultés courantes dans l'analyse statistique aujourd'hui, seules quelques solutions sont disponibles.L'objectif de cette thèse est de développer de nouvelles méthodologies pour effectuer des inférences statistiques avec des données manquantes et en particulier pour des données en grande dimension. La contribution la plus importante est de proposer un cadre complet pour traiter les valeurs manquantes, de l'estimation à la sélection d'un modèle, en se basant sur des approches de vraisemblance. La méthode proposée ne repose pas sur un dispositif spécifique du manque, et permet un bon équilibre entre qualité de l'inférence et implémentations efficaces.Les contributions de la thèse se composent en trois parties. Dans le chapitre 2, nous nous concentrons sur la régression logistique avec des valeurs manquantes dans un cadre de modélisation jointe, en utilisant une approximation stochastique de l'algorithme EM. Nous étudions l'estimation des paramètres, la sélection des variables et la prédiction pour de nouvelles observations incomplètes. Grâce à des simulations complètes, nous montrons que les estimateurs sont non biaisés et ont de bonnes propriétés en termes de couverture des intervalles de confiance, ce qui surpasse l'approche populaire basée sur l'imputation. La méthode est ensuite appliquée à des données pré-hospitalières pour prédire le risque de choc hémorragique, en collaboration avec des partenaires médicaux - le groupe Traumabase des hôpitaux de Paris. En effet, le modèle proposé améliore la prédiction du risque de saignement par rapport à la prédiction faite par les médecins.Dans les chapitres 3 et 4, nous nous concentrons sur des questions de sélection de modèles pour les données incomplètes en grande dimension, qui visent en particulier à contrôler les fausses découvertes. Pour les modèles linéaires, la version bayésienne adaptative de SLOPE (ABSLOPE) que nous proposons dans le chapitre 3 aborde ces problématiques en intégrant la régularisation triée l1 dans un cadre bayésien 'spike and slab'. Dans le chapitre 4, qui vise des modèles plus généraux que celui de la régression linéaire, nous considérons ces questions dans un cadre dit de “model-X”, où la distribution conditionnelle de la réponse en fonction des covariables n'est pas spécifiée. Pour ce faire, nous combinons une méthodologie “knockoff” et des imputations multiples. Grâce à une étude complète par simulations, nous démontrons des performances satisfaisantes en termes de puissance, de FDR et de biais d'estimation pour un large éventail de scénarios. Dans l'application de l'ensemble des données médicales, nous construisons un modèle pour prédire les niveaux de plaquettes des patients à partir des données pré-hospitalières et hospitalières.Enfin, nous fournissons deux logiciels libres avec des tutoriels, afin d'aider la prise de décision dans le domaine médical et les utilisateurs confrontés à des valeurs manquantes.
  • Régression logistique avec covariables manquantes - Estimation des paramètres, sélection du modèle et prédiction dans un cadre de modélisation conjointe.

    Wei JIANG, Julie JOSSE, Marc LAVIELLE
    Computational Statistics & Data Analysis | 2020
    La régression logistique est une méthode de classification courante dans l'apprentissage supervisé. Étonnamment, il existe très peu de solutions pour l'effectuer et sélectionner des variables en présence de valeurs manquantes. Nous développons une approche complète, comprenant l'estimation des paramètres et de la variance des estimateurs, la dérivation des intervalles de confiance et une procédure de sélection de modèle, pour les cas où les valeurs manquantes peuvent se trouver n'importe où dans les covariables. En organisant bien les différents modèles d'absence dans chaque observation, nous proposons une version d'approximation stochastique de l'algorithme EM basée sur l'échantillonnage de Metropolis-Hasting, afin d'effectuer une inférence statistique pour la régression logistique avec des données incomplètes. Nous abordons également le problème de la prédiction pour un nouvel individu avec des valeurs manquantes, qui n'est jamais abordé. La méthodologie est efficace sur le plan informatique, et ses bonnes propriétés de couverture et de sélection des variables sont démontrées dans une étude de simulation où nous comparons ses performances à celles d'autres méthodes. Par exemple, la méthode populaire d'imputation multiple par équation chaînée peut conduire à des estimations biaisées alors que notre méthode est non biaisée. Nous illustrons ensuite la méthode sur un ensemble de données de patients gravement traumatisés provenant d'hôpitaux parisiens afin de prédire l'occurrence d'un choc hémorragique, une cause majeure de décès précoce évitable dans les cas de traumatismes graves. L'objectif est de consolider la procédure actuelle du drapeau rouge, une alerte binaire identifiant les patients présentant un risque élevé d'hémorragie grave. La méthodologie est implémentée dans le package R misaem.
  • Prédicteur linéaire sur des données générées linéairement avec des valeurs manquantes : non cohérence et solutions.

    Marine LE MORVAN, Nicolas PROST, Julie JOSSE, Erwan SCORNET, Gael VAROQUAUX
    2020
    Nous considérons la construction de prédicteurs lorsque les données ont des valeurs manquantes. Nous étudions le cas apparemment simple où la cible à prédire est une fonction linéaire des données entièrement observées et nous montrons que, en présence de valeurs manquantes, le prédicteur optimal peut ne pas être linéaire. Dans le cas particulier gaussien, il peut être écrit comme une fonction linéaire d'interactions multidirectionnelles entre les données observées et les divers indicateurs de valeurs manquantes. En raison de sa complexité intrinsèque, nous étudions une approximation simple et prouvons des limites de généralisation avec des échantillons finis, en mettant en évidence les régimes pour lesquels chaque méthode est la plus performante. Nous montrons ensuite que les perceptrons multicouches avec des fonctions d'activation ReLU peuvent être cohérents, et peuvent explorer de bons compromis entre le vrai modèle et les approximations. Notre étude met en évidence la famille intéressante de modèles qu'il est avantageux d'ajuster avec des valeurs manquantes en fonction de la quantité de données disponibles.
  • Méthodes d'inférence causale pour la combinaison d'essais randomisés et d'études observationnelles : une revue.

    Benedicte COLNET, Imke MAYER, Guanhua CHEN, Awa DIENG, Ruohong LI, Gael VAROQUAUX, Jean philippe VERT, Julie JOSSE, Shu YANG
    2020
    Avec la disponibilité croissante des données, les effets causaux des traitements peuvent être évalués à travers différents ensembles de données, qu'il s'agisse d'essais randomisés ou d'études observationnelles. Les essais randomisés permettent d'isoler l'effet du traitement de celui des effets indésirables (confondants) concomitants. Mais ils peuvent être appliqués à des populations limitées, et manquent donc de validité externe. A l'inverse, les grands échantillons d'observation sont souvent plus représentatifs de la population cible mais peuvent confondre les effets de confusion avec le traitement en question. Dans cet article, nous passons en revue la littérature croissante sur les méthodes d'inférence causale sur des essais randomisés et des études observationnelles combinés, en cherchant à obtenir le meilleur des deux mondes. Nous discutons d'abord des méthodes d'identification et d'estimation qui améliorent la généralisation des essais contrôlés randomisés (ECR) en utilisant la représentativité des données d'observation. Les estimateurs classiques comprennent la pondération, la différence entre les modèles de résultats conditionnels et les estimateurs doublement robustes. Nous discutons ensuite des méthodes qui combinent les ECR et les données d'observation afin d'améliorer l'estimation de l'effet moyen (conditionnel) du traitement, en tenant compte d'une éventuelle confusion non mesurée dans les données d'observation. Nous mettons également en relation et en contraste les travaux développés dans le cadre des résultats potentiels et dans le cadre des modèles structurels de causalité. Enfin, nous comparons les principales méthodes en utilisant une étude de simulation et des données réelles pour analyser l'effet de l'acide tranexamique sur le taux de mortalité chez les patients souffrant de traumatismes majeurs. Le code permettant de mettre en œuvre un grand nombre des méthodes est fourni.
  • Imputation et estimation à faible rang avec des données manquantes non aléatoires.

    Aude SPORTISSE, Claire BOYER, Julie JOSSE
    Statistics and Computing | 2020
    Les valeurs manquantes constituent un défi pour l'analyse des données, car de nombreuses méthodes d'apprentissage supervisé et non supervisé ne peuvent être appliquées directement à des données incomplètes. La complétion de matrices basée sur des hypothèses de rangs bas est une solution très puissante pour traiter les valeurs manquantes. Cependant, les méthodes existantes ne prennent pas en compte le cas des valeurs manquantes informatives qui sont largement rencontrées dans la pratique. Cet article propose des méthodes de complétion de matrice pour récupérer les données manquantes non aléatoires (MNAR). Notre première contribution est de suggérer une stratégie d'estimation basée sur un modèle en modélisant la distribution des mécanismes manquants. Un algorithme EM est ensuite mis en œuvre, impliquant un algorithme FISTA (Fast Iterative Soft-Thresholding Algorithm). Notre deuxième contribution est de suggérer une estimation de substitution efficace en termes de calcul en prenant implicitement en compte la distribution conjointe des données et du mécanisme manquant : la matrice de données est concaténée avec le codage de masque pour les valeurs manquantes. une structure de rang bas pour la famille exponentielle est supposée sur cette nouvelle matrice, afin de coder les liens entre les variables et les mécanismes manquants. La méthodologie qui a le grand avantage de traiter différents mécanismes de valeurs manquantes est robuste aux erreurs de spécification du modèle. Les performances de nos méthodes sont évaluées sur des données réelles collectées à partir d'un registre de traumatismes (TraumaBase ) contenant des informations cliniques sur plus de vingt mille patients sévèrement traumatisés en France. L'objectif est alors de prédire si les médecins doivent administrer de l'acide tranexomique aux patients souffrant de lésions cérébrales traumatiques, ce qui permettrait de limiter les saignements excessifs.
  • Quelques problèmes d’apprentissage statistique en présence de données incomplètes.

    Maximilien BAUDRY, Christian yann ROBERT, Julie JOSSE, Christian yann ROBERT, Gerard BIAU, Anne laure FOUGERES, Thierry ARTIERES, Olivier LOPEZ
    2020
    La plupart des méthodes statistiques ne sont pas nativement conçues pour fonctionner sur des données incomplètes. L’étude des données incomplètes n’est pas nouvelle et de nombreux résultats ont été établis pour pallier l’incomplétude en amont de l’étude statistique. D’autre part, les méthodes de deep learning sont en général appliquées à des données non structurées de type image, texte ou audio, mais peu de travaux s’intéressent au développement de ce type d’approche sur des données tabulaires, et encore moins sur des données incomplètes. Cette thèse se concentre sur l’utilisation d’algorithmes de machine learning appliqués à des données tabulaires, en présence d’incomplétude et dans un cadre assurantiel. Au travers des contributions regroupées dans ce document, nous proposons différentes façons de modéliser des phénomènes complexes en présence de schémas d’incomplétude. Nous montrons que les approches proposées donnent des résultats de meilleure qualité que l’état de l’art.
  • L'analyse multivariée est suffisante pour la cartographie du comportement des lésions.

    Lucas MARTIN, Julie JOSSE, Bertrand THIRION
    BrainLes 2020 | 2020
    La cartographie des lésions et du comportement vise à prédire les déficits comportementaux individuels, compte tenu d'un certain schéma de lésions cérébrales. Elle apporte également des informations fondamentales sur l'organisation du cerveau, car les lésions peuvent être comprises comme des interventions sur le fonctionnement normal du cerveau. Nous nous concentrons ici sur le cas de l'accident vasculaire cérébral. L'approche la plus standard de la cartographie des lésions et du comportement est l'analyse univariée de masse, mais elle est imprécise en raison des corrélations entre les différentes régions du cerveau induites par la vascularisation. Récemment, il a été affirmé que les méthodes multivariées sont également sujettes à un biais lésionnel-anatomique, et qu'une évolution vers une approche causale est nécessaire pour éliminer ce biais. Dans cet article, nous recadrons le problème de la cartographie cérébrale des lésions et des comportements à l'aide d'outils classiques d'inférence causale. Nous montrons qu'en l'absence de données cliniques supplémentaires et si une seule région a un effet sur les scores comportementaux, des méthodes multivariées appropriées sont suffisantes pour éliminer le biais lésion-anatomique. Il s'agit d'une situation fréquemment rencontrée lorsque l'on travaille avec des ensembles de données publiques, qui manquent très souvent de données générales sur la santé. Nous étayons notre affirmation par une série d'expériences simulées à l'aide d'un jeu de données d'imagerie lésionnelle accessible au public, sur lequel nous montrons que les modèles multivariés adéquats fournissent des résultats de pointe.
  • Sélection de modèles adaptatifs bayésiens SLOPE-High-dimensional avec des valeurs manquantes.

    Wei JIANG, Malgorzata BOGDAN, Julie JOSSE, Blazej MIASOJEDOW, Veronika ROCKOVA
    2020
    Nous considérons le problème de la sélection de variables dans des contextes à haute dimension avec des observations manquantes parmi les covariables. Pour aborder ce problème relativement peu étudié, nous proposons une nouvelle procédure synergique -- adaptive Bayesian SLOPE -- qui combine efficacement la méthode SLOPE (régularisation l1 triée) avec la méthode Spike-and-Slab LASSO. Nous positionnons notre approche dans un cadre bayésien qui permet la sélection simultanée des variables et l'estimation des paramètres, malgré les valeurs manquantes. Comme avec la méthode Spike-and-Slab LASSO, les coefficients sont considérés comme provenant d'un modèle hiérarchique composé de deux groupes : (1) le spike pour les inactifs et (2) le slab pour les actifs. Cependant, au lieu d'assigner des priorités de pics indépendantes pour chaque covariable, nous déployons ici une priorité de pics conjointe "SLOPE" qui prend en compte l'ordre des magnitudes des coefficients afin de contrôler les fausses découvertes. Grâce à de nombreuses simulations, nous démontrons des performances satisfaisantes en termes de puissance, de FDR et de biais d'estimation dans un large éventail de scénarios. Enfin, nous analysons un jeu de données réel composé de patients des hôpitaux de Paris ayant subi un traumatisme sévère, où nous montrons d'excellentes performances dans la prédiction des niveaux de plaquettes. Notre méthodologie a été implémentée en C++ et intégrée dans un package R ABSLOPE pour une utilisation publique.
  • Estimation doublement robuste de l'effet de traitement avec des attributs manquants.

    Imke MAYER, Erik SVERDRUP, Tobias GAUSS, Jean denis MOYER, Stefan WAGER, Julie JOSSE
    2020
    Les attributs manquants sont omniprésents dans l'inférence causale, comme ils le sont dans la plupart des travaux statistiques appliqués. Dans cet article, nous considérons différents ensembles d'hypothèses sous lesquels l'inférence causale est possible malgré l'absence d'attributs et nous discutons des approches correspondantes pour l'estimation de l'effet de traitement moyen, y compris les méthodes de score de propension généralisé et l'imputation multiple. Dans le cadre d'une vaste étude de simulation, nous montrons qu'aucune méthode n'est systématiquement plus performante que les autres. Cependant, nous constatons que les modifications doublement robustes des méthodes standard d'estimation de l'effet moyen du traitement avec des données manquantes sont souvent plus performantes que les méthodes de base non doublement robustes. Par exemple, les méthodes de score de propension généralisé doublement robustes sont plus performantes que la pondération inverse avec le score de propension généralisé. Cette constatation est renforcée par l'analyse d'une étude d'observation de l'effet sur la mortalité de l'administration d'acide tranexamique chez les patients souffrant de lésions cérébrales traumatiques dans le cadre de la gestion des soins intensifs. Ici, les estimateurs doublement robustes récupèrent des intervalles de confiance qui sont cohérents avec les preuves provenant d'essais randomisés, alors que les estimateurs non doublement robustes ne le font pas.
  • Robust Lasso-Zero for sparse corruption and model selection with missing covariates.

    Pascaline DESCLOUX, Claire BOYER, Julie JOSSE, Aude SPORTISSE, Sylvain SARDY
    2020
    Nous proposons Robust Lasso-Zero, une extension de la méthodologie Lasso-Zero [Descloux et Sardy, 2018], initialement introduite pour les modèles linéaires sparse, au problème des corruptions sparse. Nous donnons des garanties théoriques sur la récupération du signe des paramètres pour une version légèrement simplifiée de l'estimateur, appelée Thresholded Justice Pursuit. L'utilisation de Robust Lasso-Zero est présentée pour la sélection de variables avec des valeurs manquantes dans les covariables. Outre le fait qu'elle ne nécessite pas la spécification d'un modèle pour les covariables, ni l'estimation de leur matrice de covariance ou de la variance du bruit, la méthode présente le grand avantage de traiter les valeurs manquantes non aléatoires sans spécifier de modèle paramétrique. Des expériences numériques et une application médicale soulignent la pertinence de Robust Lasso-Zero dans un tel contexte avec peu de concurrents disponibles. La méthode est facile à utiliser et est implémentée dans la bibliothèque R lass0.
  • VARCLUST : regroupement de variables en utilisant la réduction de la dimensionnalité.

    Piotr SOBCZYK, Malgorzata BOGDAN, Piotr GRACZYK, Julie JOSSE, Fabien PANLOUP, Valerie SEEGERS, Mateusz STANIAK, Stanislaw WILCZYNSKI
    2020
    L'algorithme VARCLUST est proposé pour le regroupement de variables en partant de l'hypothèse que les variables d'un groupe donné sont des combinaisons linéaires d'un petit nombre de variables latentes cachées, corrompues par le bruit aléatoire. L'ensemble de la tâche de clustering est considéré comme le problème de la sélection du modèle statistique, qui est défini par le nombre de clusters, la partition des variables dans ces clusters et les "dimensions des clusters", c'est-à-dire le vecteur des dimensions des sous-espaces linéaires couvrant chacun des clusters. Le modèle "optimal" est sélectionné en utilisant le critère bayésien approximatif basé sur les approximations de Laplace et en utilisant une priorité uniforme non informative sur le nombre de clusters. Pour résoudre le problème de la recherche sur un immense espace de modèles possibles, nous proposons une extension de l'algorithme ClustOfVar de [29, 7] qui était dédié aux sous-espaces de dimension 1 seulement, et qui est similaire en structure à l'algorithme K-centroid. Nous fournissons une méthodologie complète avec des garanties théoriques, des expérimentations numériques étendues, des analyses de données complètes et une mise en œuvre. Notre algorithme affecte les variables aux clusters appropriés sur la base du critère d'information bayésien (BIC) cohérent, et estime la dimensionnalité de chaque cluster par le critère de vraisemblance intégré SEmi PEnalized (PESEL) de [24], dont nous prouvons la cohérence. De plus, nous prouvons que chaque itération de notre algorithme conduit à une augmentation de l'approximation de Laplace de la probabilité postérieure du modèle et nous fournissons le critère pour l'estimation du nombre de clusters. Des comparaisons numériques avec d'autres algorithmes montrent que VARCLUST peut surpasser certains outils d'apprentissage automatique populaires pour le clustering de sous-espace clairsemé. Nous présentons également les résultats de l'analyse de données réelles, notamment les données du cancer du sein TCGA et les données météorologiques, qui montrent que l'algorithme peut conduire à un regroupement significatif. La méthode proposée est mise en œuvre dans le paquetage R varclust disponible au public. Mots clés clustering variable - approche bayésienne - k-means - réduction de la dimensionnalité - subspace clustering 2 P. Sobczyk, S. Wilczyński, M. Bogdan et al.
  • Réseaux de Neumann : programmation différentielle pour l'apprentissage supervisé avec des valeurs manquantes.

    Marine LE MORVAN, Julie JOSSE, Thomas MOREAU, Erwan SCORNET, Gael VAROQUAUX
    2020
    La présence de valeurs manquantes rend l'apprentissage supervisé beaucoup plus difficile. En effet, des travaux antérieurs ont montré que même lorsque la réponse est une fonction linéaire des données complètes, le prédicteur optimal est une fonction complexe des entrées observées et de l'indicateur d'absence. Par conséquent, les complexités de calcul ou d'échantillonnage des approches cohérentes dépendent du nombre de motifs manquants, qui peut être exponentiel dans le nombre de dimensions. Dans ce travail, nous dérivons la forme analytique du prédicteur optimal sous une hypothèse de linéarité et divers mécanismes de données manquantes, y compris les données manquantes au hasard (MAR) et l'auto-masquage (Missing Not At Random). Sur la base d'une approximation en série de Neumann du prédicteur optimal, nous proposons une nouvelle architecture de principe, appelée réseaux de Neumann. Leur originalité et leur force proviennent de l'utilisation d'un nouveau type de non-linéarité : la multiplication par l'indicateur de manque. Nous fournissons une limite supérieure sur le risque de Bayes des réseaux de Neumann, et nous montrons qu'ils ont une bonne précision prédictive avec un nombre de paramètres et une complexité de calcul indépendants du nombre de modèles de données manquantes. Par conséquent, ils s'adaptent bien aux problèmes comportant de nombreuses caractéristiques et restent statistiquement efficaces pour les échantillons de taille moyenne. De plus, nous montrons que, contrairement aux procédures utilisant l'EM ou l'imputation, elles sont robustes au mécanisme de données manquantes, y compris les paramètres MNAR difficiles tels que l'auto-masquage.
  • Injection du bruit d'entrée pour l'apprentissage automatique supervisé, avec des applications sur les données génomiques et les images.

    Beyrem KHALFAOUI, Jean philippe VERT, Veronique STOVEN, Jean philippe VERT, Julien CHIQUET, Gael VAROQUAUX, Julie JOSSE
    2019
    Le surapprentissage est un problème général qui affecte les algorithmes d'apprentissage statistique de différentes manières et qui a été approché de différentes façons dans la littérature. Nous illustrons dans un premier temps un cas réel de ce problème dans le cadre d'un travail collaboratif visant à prédire la réponse de patients atteints d'arthrose rhumatoïde à des traitement anti-inflammatoires. Nous nous intéressons ensuite à la méthode d'Injection de bruit dans les données dans sa généralité en tant que méthode de régularisation. Nous donnons une vue d'ensemble de cette méthode, ses applications, intuitions, algorithmes et quelques éléments théoriques dans le contexte de l'apprentissage supervisé. Nous nous concentrons ensuite sur la méthode du dropout introduite dans le contexte d'apprentissage profond et construisons une nouvelle approximation permettant une nouvelle interprétation de cette méthode dans un cadre général. Nous complémentons cette étude par des expériences sur des simulations et des données réelles. Par la suite, nous présentons une généralisation de la méthode d'injection de bruit dans les données inspirée du bruit inhérent à certains types de données permettant en outre une sélection de variables. Nous présentons un nouvel algorithme stochastique pour cette méthode, étudions ses propriétés de régularisation et l'appliquons au context de séquençage ARN de cellules uniques. Enfin, nous présentons une autre généralisation de la méthode d'Injection de bruit où le bruit introduit suit une structure qui est déduite d'une façon adaptative des paramètres du modèle, en tant que la covariance des activations des unités auxquelles elle est appliquée. Nous étudions les propriétés théoriques de cette nouvelle méthode qu'on nomme ASNI pour des modèles linéaires et des réseaux de neurones multi-couches. Nous démontrons enfin que ASNI permet d'améliorer la performance de généralisation des modèles prédictifs tout en améliorant les représentations résultantes.
  • Imputation multiple pour données mixtes par analyse factorielle.

    Vincent AUDIGIER, Francois HUSSON, Julie JOSSE, Matthieu RESCHE RIGON
    JdS2019 - 51es Journées de Statistique de la Société Française de Statistique | 2019
    La prise en compte de données toujours plus nombreuses complexifie sans cesse leur analyse. Cette complexité se traduit notamment par des variables de types différents, la présence de données manquantes, et un grand nombre de variables et/ou d'observations. L'application de méthodes statistiques dans ce contexte est généralement délicate. L'objet de cette présentation est de proposer une nouvelle méthode d'imputation multiple basée sur l'analyse factorielle des données mixtes (AFDM). L'AFDM est une méthode d'analyse factorielle adaptée pour des jeux de données comportant des variables quantita-tives et qualitatives, dont le nombre peut excéder, ou non, le nombre d'observations. En vertu de ses propriétés, le développement d'une méthode d'imputation multiple basée sur l'AFDM permet l'inférence sur des variables quantitatives et qualitatives incomplètes, en grande et petite dimension. La méthode d'imputation multiple proposée utilise une approche bootstrap pour refléter l'incertitude sur les composantes principales et vecteurs propres de l'AFDM, utilisés ici pour prédire (imputer) les données. Chaque réplication bootstrap fournit alors une prédiction pour l'ensemble des données incomplètes du jeu de données. Ces prédictions sont ensuite bruitées pour refléter la distribution des données. On obtient ainsi autant de tableaux imputés que de réplications bootstrap. Après avoir rappelé les principes de l'imputation multiple, nous présenterons notre méthodologie. La méthode proposée seraévaluée par simulation et comparée aux méthodes de références : imputation séquentielle par modèle linéaire généralisé, imputation par modèle de mélanges et par "general location model". La méthode proposée permet d'ob-tenir des estimations ponctuelles sans biais de différents paramètres d'intérêt ainsi que des intervalles de confiance au taux de recouvrement attendu. De plus, elle peut s'appliquer 1 sur des jeux de données de nature variée et de dimensions variées, permettant notamment de traiter les cas où le nombre d'observations est plus petit que le nombre de variables. Abstract.
  • Regroupement basé sur un modèle avec des données manquantes non aléatoires. Mécanisme manquant.

    Fabien LAPORTE, Christophe BIERNACKI, Gilles CELEUX, Julie JOSSE
    Working Group on Model-Based Clustering Summer Session | 2019
    Depuis les années 90, le clustering basé sur un modèle est largement utilisé pour classer les données. Aujourd'hui, avec l'augmentation des données disponibles, les valeurs manquantes sont plus fréquentes. Nous défendons le besoin d'intégrer le mécanisme de manque directement dans l'étape de modélisation du clustering. Il existe trois types de données manquantes : manquantes complètement au hasard (MCAR), manquantes au hasard (MAR) et manquantes non au hasard (MNAR). Dans toutes les situations, la régression logistique est proposée comme un modèle candidat naturel et exible. Dans ce contexte uni, les critères standards de sélection de modèles peuvent être utilisés pour choisir entre ces différents mécanismes de données manquantes, simultanément avec le nombre de clusters. L'intérêt pratique de notre proposition est illustré sur des données issues d'études médicales présentant de nombreuses données manquantes.
  • Traitement des données manquantes dans le regroupement à base de modèle par un modèle MNAR.

    Christophe BIERNACKI, Gilles CELEUX, Julie JOSSE, Fabien LAPORTE
    CRoNos & MDA 2019 - Meeting and Workshop on Multivariate Data Analysis and Software | 2019
    Depuis les années 90, le clustering basé sur un modèle est largement utilisé pour classer les données. Aujourd'hui, avec l'augmentation des données disponibles, les valeurs manquantes sont plus fréquentes. Les méthodes traditionnelles pour les traiter consistent à obtenir un ensemble de données remplies, soit en éliminant les valeurs manquantes, soit en les imputant. Dans le premier cas, certaines informations sont perdues. Dans le second cas, l'objectif final du clustering n'est pas pris en compte par l'étape d'imputation. Ainsi, les deux solutions risquent de brouiller le résultat de l'estimation du clustering. Alternativement, nous défendons la nécessité d'intégrer le mécanisme de manque directement dans l'étape de modélisation du clustering. Il existe trois types de données manquantes : complètement manquantes au hasard (MCAR), manquantes au hasard (MAR) et non manquantes au hasard (MNAR). Dans toutes les situations, la régression logistique est proposée comme un modèle candidat naturel et flexible. En particulier, sa propriété de flexibilité permet de concevoir certaines variantes parcimonieuses significatives, comme la dépendance aux valeurs manquantes ou la dépendance à l'étiquette de la grappe. Dans ce contexte unifié, les critères standards de sélection de modèles peuvent être utilisés pour choisir entre ces différents mécanismes de données manquantes, simultanément avec le nombre de clusters. L'intérêt pratique de notre proposition est illustré sur des données issues d'études médicales présentant de nombreuses données manquantes.
  • Modèles de classification non supervisée avec données manquantes non au hasard.

    Fabien LAPORTE, Christophe BIERNACKI, Gilles CELEUX, Julie JOSSE
    51e journées de statistique | 2019
    La difficulté de prise en compte des données manquantes est souvent con-tournée en supposant que leur occurrence est due au hasard. Dans cette communication, nous envisageons que l'absence de certaines données n'est pas due au hasard dans le contexte de la classification non supervisée et nous proposons des modèles logistiques pour traduire le fait que cette occurrence peutêtre associéeà la classification cherchée. Nous privilégions différents modèles que nous estimons par le maximum de vraisemblance et nous analysons leurs caractéristiques au travers de leur application sur des données hospitalières.
  • Imputation non paramétrique par profondeur de données.

    Pavlo MOZHAROVSKYI, Julie JOSSE, Francois HUSSON
    Journal of the American Statistical Association | 2019
    La méthodologie présentée pour l'imputation unique des valeurs manquantes emprunte l'idée de la profondeur des données --- une mesure de centralité définie pour un point arbitraire de l'espace par rapport à une distribution de probabilité ou un nuage de données. Elle consiste en une maximisation itérative de la profondeur de chaque observation avec des valeurs manquantes, et peut être employée avec toute fonction de profondeur statistique correctement définie. À chaque itération, l'imputation se réduit à l'optimisation d'une fonction quadratique, linéaire ou quasi-concave, résolue respectivement de manière analytique, par programmation linéaire ou par la méthode de Nelder-Mead. En étant capable de saisir la topologie sous-jacente des données, la procédure est sans distribution, permet d'imputer près des données, préserve les possibilités de prédiction différentes des méthodes d'imputation locales (k-plus proches voisins, forêt aléatoire), et présente une robustesse et des propriétés asymptotiques intéressantes sous symétrie elliptique. On montre que son cas particulier --- lorsqu'on utilise la profondeur de Mahalanobis --- a un lien direct avec des traitements bien connus pour le modèle normal multivarié, comme la régression itérée ou l'ACP régularisée. La méthodologie est étendue à l'imputation multiple pour les données issues d'une distribution elliptiquement symétrique. Des études de simulation et de données réelles opposent positivement la procédure aux alternatives populaires existantes. La méthode a été implémentée sous la forme d'un paquetage R.
  • Biais dans la sélection des caractéristiques avec des données manquantes.

    Borja SEIJO PARDO, Amparo ALONSO BETANZOS, Kristin p. BENNETT, Veronica BOLON CANEDO, Julie JOSSE, Mehreen SAEED, Isabelle GUYON
    Neurocomputing | 2019
    Pas de résumé disponible.
  • Imputation de données mixtes à l'aide de la décomposition en valeurs singulières à plusieurs niveaux.

    Francois HUSSON, Julie JOSSE, Balasubramanian NARASIMHAN, Genevieve ROBIN
    Journal of Computational and Graphical Statistics | 2019
    L'analyse statistique de grands ensembles de données offre de nouvelles possibilités pour mieux comprendre de nombreux processus. Pourtant, l'accumulation de données implique souvent d'assouplir les procédures d'acquisition ou de combiner des sources diverses. Par conséquent, ces ensembles de données contiennent souvent des données mixtes, c'est-à-dire à la fois quantitatives et qualitatives et de nombreuses valeurs manquantes. En outre, les données agrégées présentent une structure naturelle \textit{multilevel}, où les individus ou les échantillons sont imbriqués dans différents sites, comme des pays ou des hôpitaux. L'imputation de données multiniveaux a donc suscité une certaine attention récemment, mais les solutions actuelles ne sont pas conçues pour traiter des données mixtes et souffrent d'importants inconvénients tels que leur coût de calcul. Dans cet article, nous proposons une méthode d'imputation unique pour les données multiniveaux, qui peut être utilisée pour compléter des données quantitatives, catégorielles ou mixtes. La méthode est basée sur la décomposition de la valeur singulière (SVD) multiniveau, qui consiste à décomposer la variabilité des données en deux composantes, la variabilité entre et au sein des groupes, et à effectuer la SVD sur les deux parties. Nous montrons par une étude de simulation que, par rapport à ses concurrents, la méthode présente les grands avantages de pouvoir traiter des ensembles de données de tailles diverses et d'être plus rapide en termes de calcul. En outre, elle est la première à ce jour à traiter des données mixtes. Nous appliquons la méthode pour imputer un ensemble de données médicales résultant de l'agrégation de plusieurs ensembles de données provenant de différents hôpitaux. Cette application s'inscrit dans le cadre d'un projet plus large sur les patients traumatisés. Pour surmonter les obstacles liés à l'agrégation de données médicales, nous nous tournons vers le calcul distribué. La méthode est implémentée dans un package R.
  • Estimation et imputation dans l'analyse probabiliste en composantes principales avec des données manquantes non aléatoires.

    Aude SPORTISSE, Claire BOYER, Julie JOSSE
    2019
    Les valeurs manquantes non aléatoires sont considérées comme non ignorables et nécessitent de définir un modèle pour le mécanisme des valeurs manquantes, ce qui implique un a priori fort sur la forme paramétrique de la distribution et rend les tâches d'inférence ou d'imputation plus complexes. Les méthodologies de traitement des valeurs MNAR se concentrent également sur des paramètres simples, en supposant qu'une seule variable (telle que la variable de résultat) comporte des entrées manquantes. Des travaux récents de Mohan et Pearl basés sur des modèles graphiques et la causalité montrent que des paramètres spécifiques de MNAR permettent de récupérer certains aspects de la distribution sans spécifier le mécanisme de MNAR. Nous poursuivons cette ligne de recherche. En considérant une matrice de données générée à partir d'un modèle d'analyse probabiliste en composantes principales (PPCA) contenant plusieurs variables MNAR, pas nécessairement sous le même mécanisme de manques auto-masqués, nous proposons des estimateurs pour les moyennes, variances et covariances des variables et étudions leur cohérence. Les estimateurs présentent le grand avantage d'être calculés en utilisant uniquement les données observées. En outre, nous proposons une méthode d'imputation de la matrice de données et une estimation de la matrice de chargement PPCA. Nous comparons notre proposition avec les résultats obtenus pour les valeurs manquantes ignorables basés sur l'utilisation de l'algorithme d'espérance-maximisation.
  • Effets principaux et interactions dans des cadres de données mixtes et incomplètes.

    Genevieve ROBIN, Olga KLOPP, Julie JOSSE, Eric MOULINES, Robert TIBSHIRANI
    Journal of the American Statistical Association | 2019
    Un cadre de données mixte (MDF) est un tableau rassemblant des observations catégorielles, numériques et de comptage. L'utilisation des MDF est très répandue en statistique et les applications sont nombreuses, des données d'abondance en écologie aux systèmes de recommandation. Dans de nombreux cas, un MDF présente simultanément des effets principaux, tels que des effets de ligne, de colonne ou de groupe et des interactions, pour lesquels un modèle à faible rang a souvent été proposé. Bien que la littérature sur les approximations de rangs bas soit très importante, à quelques exceptions près, les méthodes existantes ne permettent pas d'incorporer les effets principaux et les interactions tout en fournissant des garanties statistiques. Le présent travail comble cette lacune. * Ce travail a été financé par la DataScience Inititiative (Ecole Polytechnique) et le Russian Academic Excellence Project '5-100.
  • R-miss-tastic : une plateforme unifiée pour les méthodes et les flux de travail relatifs aux valeurs manquantes.

    Imke MAYER, Julie JOSSE, Nicholas TIERNEY, Nathalie VIALANEIX
    2019
    Les valeurs manquantes sont inévitables lorsqu'on travaille avec des données. Leur occurrence est exacerbée par l'augmentation du nombre de données disponibles provenant de différentes sources. Cependant, la plupart des modèles statistiques et des méthodes de visualisation nécessitent des données complètes, et un traitement incorrect des données manquantes entraîne une perte d'information ou des analyses biaisées. Depuis les travaux précurseurs de Rubin (1976), il existe une littérature florissante sur les valeurs manquantes, avec des objectifs et des motivations hétérogènes. Cela a donné lieu au développement de diverses méthodes, formalisations et outils (y compris un grand nombre de packages R). Cependant, pour les praticiens, il est difficile de décider quelle méthode est la plus adaptée à leur problème, en partie parce que le traitement des données manquantes n'est toujours pas un sujet systématiquement abordé dans les programmes d'études de statistique ou de science des données. Pour aider à relever ce défi, nous avons lancé une plateforme unifiée : "R-miss-tastic", qui vise à fournir une vue d'ensemble des problèmes de valeurs manquantes standard, des méthodes, de la façon de les traiter dans les analyses, et des implémentations pertinentes des méthodologies. L'objectif est non seulement de collecter, mais aussi d'organiser de manière exhaustive le matériel, de créer des flux de travail d'analyse standard et d'unifier la communauté. Ces aperçus sont destinés aux débutants, aux étudiants, aux analystes plus avancés et aux chercheurs.
  • Sur la cohérence de l'apprentissage supervisé avec des valeurs manquantes.

    Julie JOSSE, Nicolas PROST, Erwan SCORNET, Gael VAROQUAUX
    2019
    Dans de nombreux contextes d'application, les données présentent des caractéristiques manquantes qui rendent l'analyse des données difficile. Une littérature abondante traite des données manquantes dans un cadre inférentiel : estimation des paramètres et de leur variance à partir de tableaux incomplets. Ici, nous considérons des paramètres d'apprentissage supervisé : prédire une cible lorsque des valeurs manquantes apparaissent à la fois dans les données d'apprentissage et de test. Nous montrons la cohérence de deux approches en matière de prédiction. Un résultat frappant est que la méthode largement utilisée d'imputation avec la moyenne avant l'apprentissage est cohérente lorsque les valeurs manquantes ne sont pas informatives. Cela contraste avec les paramètres inférentiels où l'on reproche à l'imputation de la moyenne de fausser la distribution des données. Le fait qu'une approche aussi simple puisse être cohérente est important dans la pratique. Nous montrons également qu'un prédicteur adapté à des observations complètes peut prédire de manière optimale sur des données incomplètes, grâce à l'imputation multiple. Nous analysons ensuite les arbres de décision. Ceux-ci peuvent naturellement s'attaquer à la minimisation du risque empirique avec des valeurs manquantes, en raison de leur capacité à traiter la nature semi-discrète des variables incomplètes. Après avoir comparé les différentes stratégies de valeurs manquantes théoriques et empiriques dans les arbres, nous recommandons l'utilisation de la méthode "valeurs manquantes incorporées dans l'attribut", car elle peut traiter les valeurs manquantes non informatives et informatives. -0.05 0 +0.05 -0.02 -0.01 0 +0.01 +0.02 -0.1 -0.05 0 +0.05 +0.1 0. M I A 2. i m p u t e m e a n + m a s k 3. i m p u t e m e a n 4. i m p u t e G a u s s i a n + m a s k 5. i m p u t e G a u s s i a n 6. r p a r t (s u r r o g a t e s ) + m a s k 7. r p a r t (s u r r o g a t e s ) 8. c t r e e (s u r r o g a t e s ) + m a s k 9. c t r e e (s u r r o g a t e s ) 0. M I A 2. i m p u t e m e a n + m a s k 3. i m p u t e m e a n 4. i m p u t e G a u s s i a n + m a s k 5. i m p u t e G a u s s i a n 0. M I A 1. b l o c k 2. i m p u t e m e a n + m a s k 3. i m p u t e m e a n 4. i m p u t e G a u s s i a n + m a s k 5. i m p u t e G a u s s i a n Variance relative expliquée.
  • Modèle à faible rang avec covariables pour les données de comptage avec valeurs manquantes.

    Genevieve ROBIN, Julie JOSSE, Eric MOULINES, Sylvain SARDY
    Journal of Multivariate Analysis | 2019
    Pas de résumé disponible.
  • Imputation et estimation à faible rang avec des données manquantes non aléatoires.

    Aude SPORTISSE, Claire BOYER, Julie JOSSE
    2019
    Les valeurs manquantes constituent un défi pour l'analyse des données, car de nombreuses méthodes d'apprentissage supervisées et non supervisées ne peuvent être appliquées directement à des données incomplètes. La complétion de matrices basée sur des hypothèses de rangs bas est une solution très puissante pour traiter les valeurs manquantes. Cependant, les méthodes existantes ne prennent pas en compte le cas des valeurs manquantes informatives qui sont largement rencontrées dans la pratique. Cet article propose des méthodes de complétion de matrice pour récupérer les données manquantes non aléatoires (MNAR). Notre première contribution est de suggérer une stratégie d'estimation basée sur un modèle en modélisant la distribution des mécanismes manquants. Un algorithme EM est ensuite mis en œuvre, impliquant un algorithme FISTA (Fast Iterative Soft-Thresholding Algorithm). Notre deuxième contribution est de suggérer une estimation de substitution efficace en termes de calcul en prenant implicitement en compte la distribution conjointe des données et du mécanisme manquant : la matrice de données est concaténée avec le codage de masque pour les valeurs manquantes. Une structure de bas rang pour la famille exponentielle est supposée sur cette nouvelle matrice, afin de coder les liens entre les variables et les mécanismes manquants. La méthodologie qui a le grand avantage de traiter différents mécanismes de valeurs manquantes est robuste aux erreurs de spécification du modèle.
  • Régression logistique avec covariables manquantes -- Estimation des paramètres, sélection du modèle et prédiction.

    Wei JIANG, Julie JOSSE, Marc LAVIELLE
    2018
    La régression logistique est une méthode de classification courante dans l'apprentissage supervisé. Étonnamment, il existe très peu de solutions pour l'effectuer et sélectionner des variables en présence de valeurs manquantes. Nous développons une approche complète, comprenant l'estimation des paramètres et de la variance des estimateurs, la dérivation des intervalles de confiance et une procédure de sélection de modèle, pour les cas où les valeurs manquantes peuvent se trouver n'importe où dans les covariables. En organisant bien les différents modèles d'absence dans chaque observation, nous proposons une version d'approximation stochastique de l'algorithme EM basée sur l'échantillonnage de Metropolis-Hasting, afin d'effectuer une inférence statistique pour la régression logistique avec des données incomplètes. Nous abordons également le problème de la prédiction pour un nouvel individu avec des valeurs manquantes, qui n'est jamais abordé. La méthodologie est efficace sur le plan informatique, et ses bonnes propriétés de couverture et de sélection des variables sont démontrées dans une étude de simulation où nous comparons ses performances à celles d'autres méthodes. Par exemple, la méthode populaire d'imputation multiple par équation chaînée peut conduire à des estimations biaisées alors que notre méthode est non biaisée. Nous illustrons ensuite la méthode sur un ensemble de données de patients gravement traumatisés provenant d'hôpitaux parisiens afin de prédire l'occurrence d'un choc hémorragique, une cause majeure de décès précoce évitable dans les cas de traumatismes graves. L'objectif est de consolider la procédure actuelle du drapeau rouge, une alerte binaire identifiant les patients présentant un risque élevé d'hémorragie grave. La méthodologie est implémentée dans le package R misaem.
  • Interaction à faible rang avec un modèle à effets additifs épars pour les grandes séries de données.

    Genevieve ROBIN, Hoi to WAI, Julie JOSSE, Olga KLOPP, Eric MOULINES
    32nd Conference on Neural Information Processing Systems (NeurIPS 2018) | 2018
    De nombreuses applications de l'apprentissage automatique impliquent l'analyse de grands cadres de données - des matrices rassemblant des mesures hétérogènes (binaires, numériques, comptages, etc.) sur des échantillons - avec des valeurs manquantes. Les modèles à faible rang, tels qu'étudiés par Udell et al. [30], sont populaires dans ce cadre pour des tâches telles que la visualisation, le regroupement et l'imputation des valeurs manquantes. Cependant, les méthodes disponibles avec des garanties statistiques et une optimisation efficace ne permettent pas de modéliser explicitement les effets additifs principaux tels que les effets de ligne et de colonne, ou les effets de covariation. Dans cet article, nous introduisons un modèle LORIS (low-rank interaction and sparse additive effects) qui combine la régression matricielle sur un dictionnaire et un plan à faible rang, pour estimer simultanément les effets principaux et les interactions. Nous fournissons des garanties statistiques sous la forme de limites supérieures sur l'erreur d'estimation des deux composantes. Ensuite, nous introduisons une méthode de descente de gradient à coordonnées mixtes (MCGD) qui converge de manière sub-linéaire vers une solution optimale et qui est efficace en termes de calcul pour des ensembles de données à grande échelle. Nous montrons sur des données simulées et des données d'enquête que la méthode présente un net avantage par rapport aux pratiques actuelles, qui consistent à traiter séparément les effets additifs dans une étape de prétraitement.
  • Traitement des données manquantes dans le regroupement à base de modèle par un modèle MNAR.

    Christophe BIERNACKI, Gilles CELEUX, Julie JOSSE, Fabien LAPORTE
    CMStatistics 2018 - 11th International Conference of the ERCIM WG on Computational and Methodological Statistics | 2018
    Pas de résumé disponible.
  • R pour la statistique et la science des données.

    Francois HUSSON, Eric MATZNER LOBER, Arnaud GUYADER, Pierre andre CORNILLON, Julie JOSSE, Laurent ROUVIERE, Nicolas KLUTCHNIKOFF, Benoit THIEURMEL, Nicolas JEGOU, Erwann LE PENNEC
    2018
    Pas de résumé disponible.
  • Réduction bayésienne de la dimensionnalité avec ACP utilisant la vraisemblance semi-intégrée pénalisée.

    Piotr SOBCZYK, Malgorzata BOGDAN, Julie JOSSE
    Journal of Computational and Graphical Statistics | 2017
    Pas de résumé disponible.
  • L'analyse des correspondances multiples et le modèle bilinéaire multilogit.

    William FITHIAN, Julie JOSSE
    Journal of Multivariate Analysis | 2017
    Pas de résumé disponible.
  • Discussion sur "50 ans de science des données".

    Susan HOLMES, Julie JOSSE
    Journal of Computational and Graphical Statistics | 2017
    Pas de résumé disponible.
  • 50 ans de sciences des données, discussion.

    Julie JOSSE, Susan HOLMES
    Journal of Computational and Graphical Statistics | 2017
    Pas de résumé disponible.
  • Approches empiriques de Bayes aux algorithmes de type PageRank pour l'évaluation des revues scientifiques.

    Jean louis FOULLEY, Gilles CELEUX, Julie JOSSE
    2017
    Suite aux critiques formulées à l'encontre du facteur d'impact des revues, de nouveaux scores d'influence des revues ont été développés tels que l'Eigenfactor ou le Prestige Scimago Journal Rank. Ils sont basés sur des algorithmes de type PageR-ank sur la matrice de transition des citations croisées du réseau citant-cité. L'algorithme PageR-ank effectue un lissage de la matrice de transition combinant une marche aléatoire sur le réseau de données et une téléportation vers tous les nœuds possibles avec des probabilités fixes (le facteur d'amortissement étant α = 0,85). Nous réinterprétons cette matrice de lissage comme la moyenne d'une distribution postérieure d'un modèle Dirichlet-multinomial dans une perspective de Bayes empirique. Nous proposons un moyen simple mais efficace de faire une distinction claire entre les zéros structurels et les zéros d'échantillonnage. Cela nous permet de contraster les cas où les autocitations sont incluses ou exclues pour éviter les biais de revues surévaluées. Nous estimons les paramètres du modèle en maximisant la vraisemblance marginale avec un algorithme Majorize-Minimize. La procédure aboutit à un score similaire à celui du PageRank mais avec un facteur d'amortissement dépendant de la revue concernée. Les procédures sont illustrées par un exemple de citations croisées parmi 47 revues statistiques étudiées par Varin et al. (2016).
  • Quelques discussions sur le document lu "Beyond subjective and objective in statistics" par A. Gelman et C. Hennig.

    Christian p. ROBERT, Gilles CELEUX, Jack JEWSON, Julie JOSSE, Jean michel MARIN
    2017
    Cette note est un recueil de plusieurs discussions de l'article " Beyond subjective and objective in statistics ", lu par A. Gelman et C. Hennig à la Royal Statistical Society le 12 avril 2017, et à paraître dans le Journal of the Royal Statistical Society, Series A.
  • Modèle à faible rang avec covariables pour l'analyse des données de comptage.

    Genevieve ROBIN, Julie JOSSE, Eric MOULINES, Sylvain SARDY
    2017
    Les données de comptage sont recueillies dans le cadre de nombreuses tâches scientifiques et techniques, notamment le traitement d'images, le séquençage de l'ARN d'une seule cellule et les études écologiques. Ces ensembles de données contiennent souvent des valeurs manquantes, par exemple parce que certains sites écologiques ne peuvent être atteints au cours d'une année donnée. En outre, dans de nombreux cas, des informations annexes sont également disponibles, par exemple des covariables sur les sites écologiques ou les espèces. Les méthodes à faible rang sont populaires pour débruiter et imputer les données de comptage, et bénéficient d'un important bagage théorique. Des extensions tenant compte des covariables ont été proposées, mais à notre connaissance, leurs propriétés théoriques et empiriques n'ont pas été étudiées de manière approfondie, et peu de logiciels sont disponibles pour les praticiens. Nous proposons une méthodologie complète appelée LORI (Low-Rank Interaction), comprenant un modèle de Poisson, un algorithme et une sélection automatique du paramètre de régularisation, pour analyser les tableaux de comptage avec covariables. Nous dérivons également une limite supérieure sur l'erreur d'estimation. Nous fournissons une étude de simulation avec des données synthétiques, révélant empiriquement que LORI améliore les méthodes de pointe en termes d'estimation et d'imputation des valeurs manquantes. Nous illustrons comment la méthode peut être interprétée par des représentations visuelles en analysant un ensemble de données bien connu sur l'abondance des plantes, et nous montrons que les résultats de LORI sont cohérents avec les résultats connus. Enfin, nous démontrons la pertinence de la méthode en analysant une table d'abondance d'oiseaux d'eau provenant de l'Office national français de la chasse et de la faune sauvage (ONCFS). La méthode est disponible dans le package R lori sur le Comprehensive Archive Network (CRAN).
  • Jan de Leeuw et l'école française d'analyse des données.

    Julie JOSSE
    Journal of Statistical Software | 2016
    Les écoles néerlandaise et française d'analyse des données diffèrent dans leurs approches de la question : Comment comprendre et résumer les informations contenues dans un ensemble de données ? Les points communs et les divergences entre les écoles sont explorés ici en se concentrant sur les méthodes dédiées à l'analyse des données catégorielles, qui sont connues sous le nom d'analyse d'homogénéité (HOMALS) ou d'analyse des correspondances multiples (MCA).
  • Les cellules T régulatrices dans le mélanome revisitées par un regroupement computationnel des sous-populations de cellules T FOXP3+.

    Hiroko FUJII, Julie JOSSE, Miki TANIOKA, Yoshiki MIYACHI, Francois HUSSON, Masahiro ONO
    The Journal of Immunology | 2016
    Pas de résumé disponible.
  • Mesure de l'association multivariée et au-delà.

    Julie JOSSE, Susan HOLMES
    Statistics Surveys | 2016
    Pas de résumé disponible.
  • missMDA : Un paquet pour le traitement des valeurs manquantes dans l'analyse des données multivariées.

    Julie JOSSE, Francois HUSSON
    Journal of Statistical Software | 2016
    Pas de résumé disponible.
  • MIMCA : imputation multiple pour les variables catégorielles avec analyse des correspondances multiples.

    Vincent AUDIGIER, Francois HUSSON, Julie JOSSE
    Statistics and Computing | 2016
    Nous proposons une méthode d'imputation multiple pour traiter les données catégorielles incomplètes. Cette méthode impute les entrées manquantes en utilisant la méthode des composantes principales dédiée aux données catégorielles : l'analyse des correspondances multiples (ACM). L'incertitude concernant les paramètres du modèle d'imputation est reflétée à l'aide d'un bootstrap non-paramétrique. L'imputation multiple à l'aide de l'ACM (MIMCA) nécessite l'estimation d'un petit nombre de paramètres en raison de la propriété de réduction de la dimensionnalité de l'ACM. Elle permet à l'utilisateur d'imputer un large éventail d'ensembles de données. En particulier, un nombre élevé de catégories par variable, un nombre élevé de variables ou un petit nombre d'individus ne sont pas un problème pour l'AMCA. Grâce à une étude de simulation basée sur des ensembles de données réelles, la méthode est évaluée et comparée aux méthodes de référence (imputation multiple par le modèle log-linéaire, imputation multiple par régressions logistiques) ainsi qu'aux travaux les plus récents sur le sujet (imputation multiple par forêts aléatoires ou par le modèle de mélange de produits de distributions multinomiales par processus de Dirichlet). La méthode proposée montre de bonnes performances en termes de biais et de couverture pour un modèle d'analyse tel qu'un modèle de régression logistique à effets principaux. En outre, la méthode MIMCA présente le grand avantage d'être nettement moins gourmande en temps sur des ensembles de données de grande dimension que les autres méthodes d'imputation multiple.
  • Les cellules T régulatrices dans le mélanome revisitées par un regroupement computationnel des sous-populations de cellules T FOXP3+.

    Hiroko FUJII, Julie JOSSE, Miki TANIOKA, Yoshiki MIYACHI, Francois HUSSON, Masahiro ONO
    Journal of Immunology | 2016
    Pas de résumé disponible.
  • Jan de Leeuw et l'école française d'analyse des données.

    Francois HUSSON, Julie JOSSE, Gilbert SAPORTA
    Journal of Statistical Software | 2016
    Les écoles néerlandaise et française d'analyse des données diffèrent dans leurs approches de la question : Comment comprendre et résumer les informations contenues dans un ensemble de données ? Les points communs et les divergences entre les écoles sont explorés ici en se concentrant sur les méthodes dédiées à l'analyse des données catégorielles, qui sont connues sous le nom d'analyse d'homogénéité (HOMALS) ou d'analyse des correspondances multiples (MCA).
  • Réduction bayésienne de la dimensionnalité avec ACP utilisant la vraisemblance semi-intégrée pénalisée.

    Piotr SOBCZYK, Malgorzata BOGDAN, Julie JOSSE
    2016
    Nous abordons le problème de l'estimation du nombre de composantes principales dans l'analyse en composantes principales (ACP). Malgré l'importance du problème et la multitude de solutions proposées dans la littérature, il est surprenant qu'il n'existe pas de cadre asymptotique cohérent qui justifierait différentes approches en fonction de la taille réelle de l'ensemble de données. Dans cet article, nous abordons cette question en présentant une approche bayésienne approximative basée sur l'approximation de Laplace et en introduisant une méthode générale pour construire les critères de sélection de modèle, appelée Vraisemblance SEmi-intégrée PEnalisée (PESEL). Notre cadre général englobe une variété d'approches existantes basées sur des modèles probabilistes, comme par exemple le critère d'information bayésien pour l'ACP probabiliste (ACPP), et permet la construction de nouveaux critères, en fonction de la taille de l'ensemble de données à disposition. Plus précisément, nous définissons PESEL lorsque le nombre de variables dépasse largement le nombre d'observations. Nous présentons également les résultats d'études de simulation approfondies et d'analyses de données réelles, qui illustrent les bonnes propriétés des critères que nous proposons par rapport aux méthodes de l'état de l'art et aux propositions très récentes. En particulier, ces simulations montrent que les critères basés sur PESEL peuvent être assez robustes contre les déviations des hypothèses du modèle probabiliste. Les critères sélectionnés basés sur PESEL pour l'estimation du nombre de composantes principales sont implémentés dans le package R varclust, qui est disponible sur github (https://github.com/psobczyk/varclust).
  • Zones de confiance pour l'ACP à effets fixes.

    Julie JOSSE, Stefan WAGER, Francois HUSSON
    Journal of Computational and Graphical Statistics | 2016
    L'ACP est souvent utilisée pour visualiser des données lorsque les lignes et les colonnes sont toutes deux intéressantes. Dans un tel contexte, il y a un manque de méthodes inférentielles sur la sortie de l'ACP. Nous étudions la variance asymptotique d'un modèle à effets fixes pour l'ACP, et proposons plusieurs approches pour évaluer la variabilité des estimations de l'ACP : une méthode basée sur un bootstrap paramétrique, un nouveau jackknife par cellule, ainsi qu'une approximation du jackknife moins coûteuse en calcul. Nous visualisons les régions de confiance par rotation de Procrustes. À l'aide d'une étude de simulation, nous comparons les méthodes proposées et mettons en évidence les avantages et les inconvénients de chaque méthode en faisant varier le nombre de lignes, le nombre de colonnes et la force des relations entre les variables.
  • denoiseR : Un paquetage pour l'estimation de matrices de bas rang.

    Julie JOSSE, Sylvain SARDY, Stefan WAGER
    2016
    Nous présentons le package R denoiseR dédié à l'estimation des matrices de rangs bas. Tout d'abord, nous passons brièvement en revue les méthodes existantes, notamment le rétrécissement de la valeur singulière et une approche bootstrap paramétrique. Ensuite, nous discutons de la manière d'étendre les méthodes aux valeurs manquantes et nous proposons un algorithme général d'imputation itérative. Ce dernier comprend une extension de l'estimation du risque sans biais de Stein aux valeurs manquantes pour la sélection des paramètres d'ajustement. Enfin, nous comparons et appliquons les méthodes à l'aide de nombreuses expériences.
  • Analyse multinomiale des correspondances multiples.

    Julie JOSSE, Patrick j. f. GROENEN
    2016
    Les relations entre les variables catégorielles peuvent être analysées de manière pratique par l'analyse des correspondances multiples (ACM). Elle est bien adaptée pour découvrir les relations qui peuvent exister entre les catégories de différentes variables. La représentation graphique des résultats de l'ACM sous forme de "biplots" permet d'interpréter facilement les associations les plus importantes. Cependant, l'un des principaux inconvénients de l'ACM est qu'elle ne dispose pas d'un modèle de probabilité sous-jacent pour un individu qui choisit une catégorie sur une variable. Dans cet article, nous proposons un tel modèle de probabilité appelé analyse multinomiale des correspondances multiples (MMCA) qui combine la représentation sous-jacente à faible rang de l'ACM avec le maximum de vraisemblance. Un algorithme de majorisation efficace qui utilise une limite élégante pour la dérivée seconde est dérivé pour estimer les paramètres. Le modèle proposé peut facilement conduire à un ajustement excessif, entraînant une dérive de certains paramètres vers l'infini. Nous ajoutons la pénalité de la norme nucléaire pour contrer ce problème et discutons des façons de sélectionner les paramètres de régularisation. L'approche proposée est bien adaptée à l'étude et à la visualisation des dépendances pour les données de haute dimension.
  • Analyse des correspondances multiples et modèle bilinéaire multilogit.

    William FITHIAN, Julie JOSSE
    2016
    L'analyse des correspondances multiples (ACM) est une méthode de réduction de la dimension qui joue un rôle important dans l'analyse des tableaux comportant des variables nominales catégorielles, comme les données d'enquête. Bien qu'elle soit généralement motivée et dérivée à l'aide de considérations géométriques, nous prouvons en fait qu'elle équivaut à une seule étape proximale de Newtown d'un modèle naturel bilinéaire de la famille exponentielle pour les données catégorielles, le modèle multinomial logit bilinéaire. Nous comparons et contrastons le comportement de MCA avec celui du modèle sur des simulations et discutons de nouvelles idées sur les propriétés des méthodes multivariées exploratoires et de leurs modèles correspondants. Une conclusion principale est que nous pourrions recommander d'approximer les paramètres du modèle multilogit en utilisant l'ACM. En effet, l'estimation des paramètres du modèle n'est pas une tâche triviale alors que l'ACM a le grand avantage d'être facilement résolue par décomposition de la valeur singulière et d'être extensible à de grandes données.
  • Contribution aux méthodes des valeurs manquantes et des composantes principales.

    Julie JOSSE
    2016
    Ce manuscrit a été écrit pour l'Habilitation à Diriger des Recherches et il décrit mes activités de recherche. La première partie de ce manuscrit s'intitule "A missing values tour with principal components methods". Il se concentre d'abord sur l'exécution de méthodes exploratoires en composantes principales (basées sur l'ACP) malgré les valeurs manquantes, c'est-à-dire l'estimation des scores et des charges des paramètres pour obtenir des représentations biplot à partir d'un ensemble de données incomplet. Ensuite, il présente l'utilisation des méthodes de composantes principales comme imputation simple et multiple pour les données continues et catégorielles. La deuxième partie concerne les "Nouvelles pratiques de visualisation avec les méthodes en composantes principales". Elle présente des versions régularisées des méthodes en composantes principales dans le cas complet et leurs impacts potentiels sur les sorties graphiques des biplots.Ces contributions s'inscrivent dans le cadre plus général des méthodes d'estimation des matrices de rang faible. Ensuite, il aborde les notions de variabilité des paramètres avec les zones de confiance pour l'ACP à effet fixe, en utilisant les approches bootstrap et bayésienne.
  • Rétrécissement adaptatif des valeurs singulières.

    Julie JOSSE, Sylvain SARDY
    Statistics and Computing | 2015
    Pour estimer une matrice de rang faible à partir d'observations bruyantes, la décomposition en valeurs singulières tronquées a été largement utilisée et étudiée : les valeurs singulières empiriques sont soumises à un seuil dur et les vecteurs singuliers empiriques restent intacts. Les estimateurs récents ne tronquent pas seulement les valeurs singulières mais les réduisent également. Dans la même veine, nous proposons un continuum de fonctions de seuillage et de rétrécissement qui englobe le seuillage dur et le seuillage doux. Pour éviter une recherche instable et coûteuse par validation croisée de leurs paramètres de seuillage et de rétrécissement, nous proposons de nouvelles règles pour sélectionner ces deux paramètres de régularisation à partir des données. En particulier, nous proposons un critère d'estimation du risque sans biais de Stein généralisé qui ne nécessite pas la connaissance de la variance du bruit et qui est rapide en termes de calcul. Une simulation de Monte Carlo révèle que notre estimateur surpasse les méthodes testées en termes d'erreur quadratique moyenne et d'estimation du rang.
  • Auto-codage stable : Un cadre flexible pour l'estimation de matrices régularisées à faible rang.

    Julie JOSSE, Stefan WAGER
    Procedia Computer Science | 2015
    Nous développons un cadre pour l'estimation de matrices de rangs bas qui nous permet de transformer les modèles de bruit en schémas de régularisation via un simple bootstrap paramétrique. En fait, notre procédure cherche une base d'auto-encodage pour la matrice observée qui est robuste par rapport au modèle de bruit spécifié. Dans le cas le plus simple, avec un modèle de bruit isotrope, notre procédure est équivalente à un estimateur classique de rétrécissement de la valeur singulière. Pour les modèles de bruit non isotrope, cependant, notre méthode ne se réduit pas à un rétrécissement de la valeur singulière, mais produit de nouveaux estimateurs qui donnent de bons résultats dans les expériences. De plus, en itérant notre schéma d'auto-codage stable, nous pouvons générer automatiquement des estimations à faible rang sans spécifier le rang cible comme paramètre de réglage.
  • Imputation multiple pour les variables continues à l'aide d'une analyse bayésienne en composantes principales.

    Vincent AUDIGIER, Francois HUSSON, Julie JOSSE
    Journal of Statistical Computation and Simulation | 2015
    Nous proposons une méthode d'imputation multiple pour traiter des données continues incomplètes basée sur l'analyse en composantes principales (ACP). Pour refléter l'incertitude des paramètres d'une imputation à l'autre, nous utilisons un traitement bayésien du modèle ACP. À l'aide d'une étude de simulation, la méthode est comparée à deux approches classiques : l'imputation multiple basée sur une modélisation conjointe et sur une modélisation entièrement conditionnelle. Contrairement aux autres, la méthode proposée peut être facilement utilisée sur des ensembles de données où le nombre d'individus est inférieur au nombre de variables. De plus, elle fournit une bonne estimation ponctuelle du paramètre d'intérêt, une estimation de la variabilité de l'estimateur fiable tout en réduisant la largeur des intervalles de confiance.
  • Différentes habitudes de consommation de liquides au cours de la semaine peuvent être identifiées chez les adultes allemands.

    Isabelle GUELINCKX, Francois HUSSON, Erica PERRIER, Stella KEMGANG, Alexis KLEIN, Julie JOSSE
    FASEB Journal | 2014
    Pas de résumé disponible.
  • Analyse en composantes principales avec valeurs manquantes : une étude comparative des méthodes.

    Stephane DRAY, Julie JOSSE
    Plant Ecology | 2014
    L'analyse en composantes principales (ACP) est une technique standard pour résumer les principales structures d'un tableau de données contenant les mesures de plusieurs variables quantitatives pour un certain nombre d'individus. Ici, nous étudions le cas où certaines des valeurs des données sont manquantes et proposons une revue des méthodes qui accommodent l'ACP aux données manquantes. En écologie végétale, ce défi statistique est lié à l'effort actuel de compilation des bases de données mondiales de traits fonctionnels des plantes, qui produit des matrices avec un grand nombre de valeurs manquantes. Nous présentons plusieurs techniques pour considérer ou estimer (imputer) les valeurs manquantes dans l'ACP et nous les comparons à l'aide de considérations théoriques. Nous avons réalisé une étude de simulation pour évaluer les mérites relatifs des différentes approches dans diverses situations (structure de corrélation, nombre de variables et d'individus, et pourcentage de valeurs manquantes) et les avons également appliquées sur un ensemble de données réelles. Enfin, nous discutons des avantages et des inconvénients de ces approches, des pièges potentiels et des défis à relever à l'avenir.
  • Analyse des correspondances multiples.

    Francois HUSSON, Julie JOSSE
    Visualization and Verbalization of Data | 2014
    Pas de résumé disponible.
  • Un autre regard sur l'analyse bayésienne des modèles AMMI pour les données génotype-environnement.

    Julie JOSSE, Fred VAN EEUWIJK, Hans peter PIEPHO, Jean baptiste DENIS
    Journal of Agricultural, Biological, and Environmental Statistics | 2014
    Les modèles linéaires-bilinéaires sont fréquemment utilisés pour analyser les données bidirectionnelles telles que les données génotype-par-environnement. Un exemple bien connu de cette classe de modèles est le modèle des effets principaux additifs et des effets d'interaction multiplicatifs (AMMI). Nous proposons un nouveau traitement bayésien de ces modèles, qui offre un moyen approprié de traiter le problème majeur de la surparamétrisation. Le raisonnement consiste à ignorer le problème au niveau antérieur et à appliquer un traitement approprié au niveau postérieur afin de pouvoir arriver à des inférences facilement interprétables. Par rapport aux tentatives précédentes, cette nouvelle stratégie présente le grand avantage d'être directement implémentable dans des progiciels standard consacrés aux statistiques bayésiennes tels que WinBUGS/OpenBUGS/JAGS. La méthode est évaluée à l'aide de jeux de données simulés et d'un jeu de données réel issu de la sélection végétale. Nous discutons des avantages d'une perspective bayésienne pour l'analyse des interactions génotype-environnement, en nous concentrant sur des questions pratiques liées à l'adaptation générale et locale et à la stabilité des génotypes. Nous proposons également une nouvelle solution pour l'estimation du risque qu'un génotype ne dépasse pas un seuil donné.
  • Une méthode de composante principale pour imputer les valeurs manquantes pour les données mixtes.

    Vincent AUDIGIER, Francois HUSSON, Julie JOSSE
    Advances in Data Analysis and Classification | 2014
    Nous proposons une nouvelle méthode pour imputer les valeurs manquantes dans les ensembles de données mixtes. Elle est basée sur une méthode de composantes principales, l'analyse factorielle pour données mixtes, qui équilibre l'influence de toutes les variables continues et catégorielles dans la construction des dimensions de la variabilité. Comme l'imputation utilise les axes et les composantes principales, la prédiction des valeurs manquantes est basée sur la similarité entre les individus et sur les relations entre les variables. La qualité de l'imputation est évaluée par une étude de simulation et des ensembles de données réelles. La méthode est comparée à une méthode récente (Stekhoven et Bühlmann, 2011) basée sur les forêts aléatoires et montre de meilleures performances, notamment pour l'imputation de variables catégorielles et lorsqu'il existe des relations hautement linéaires entre les variables continues.
  • Traitement des valeurs manquantes dans l'analyse factorielle multiple.

    Francois HUSSON, Julie JOSSE
    Food Quality and Preference | 2013
    Pas de résumé disponible.
  • Mesures de la dépendance entre les vecteurs aléatoires et tests d'indépendance.

    Julie JOSSE, Susan HOLMES
    2013
    Le simple coefficient de corrélation entre deux variables a été plusieurs fois généralisé aux mesures d'association entre deux matrices. Des coefficients tels que le coefficient RV, le coefficient de covariance de distance (dCov) ou le critère d'information de Hilbert Schmidt (HSIC) ont tous été adoptés par différentes communautés. Les scientifiques utilisent également des tests pour mesurer si deux variables aléatoires sont liées et interprètent ensuite les coefficients dans leur contexte. De nombreuses branches de la science ont actuellement besoin de mesures d'association multivoie. L'objectif de cet article est de fournir un petit état de l'art sur le sujet des mesures de dépendance entre les vecteurs aléatoires et les tests d'indépendance et de montrer les liens entre les différentes approches. Nous documentons certaines des redécouvertes intéressantes et le manque d'interconnexion entre les corps de la littérature. Cette revue commence par un bref historique des tests de randomisation utilisant des matrices de distance et quelques exemples motivants. Nous donnons ensuite une définition des coefficients et des tests associés. Enfin, nous passons en revue quelques-unes des modifications récentes qui ont été proposées et qui offrent des propriétés améliorées et facilitent l'interprétation, ainsi que certaines orientations prospectives pour les recherches futures.
  • Valeurs manquantes dans l'analyse en composantes simultanées à plusieurs niveaux.

    Julie JOSSE, Marieke e. TIMMERMAN, Henk a.l. KIERS
    Chemometrics and Intelligent Laboratory Systems | 2013
    L'analyse en composantes de données avec des valeurs manquantes est souvent réalisée avec des algorithmes d'imputation itérative. Cependant, cette approche est sujette à des problèmes d'overfitting. Comme alternative, Josse et al. (2009) ont proposé un algorithme régularisé dans le cadre de l'analyse en composantes principales (ACP). Nous utilisons ici une approche similaire pour traiter les valeurs manquantes dans l'analyse en composantes simultanées multiniveau (MLSCA), une méthode dédiée à l'exploration de données multiniveau multivariées (par exemple, des individus imbriqués dans des groupes). Nous discutons les propriétés de l'algorithme régularisé, le comportement attendu sous les mécanismes de manques (complètement) au hasard (M(C)AR) et les problèmes possibles de dysmonotonie. Nous expliquons l'importance de séparer les déviations dues aux fluctuations d'échantillonnage et celles dues aux données manquantes. Sur la base d'une étude comparative de simulation extensive, nous montrons que la méthode régularisée est généralement performante et surpasse clairement un algorithme de type EM. (C) 2013 Elsevier B.V. Tous droits réservés.
  • ACP régularisée pour débruiter et visualiser les données.

    Marie VERBANCK, Julie JOSSE, Francois HUSSON
    Statistics and Computing | 2013
    L'analyse en composantes principales (ACP) est une méthode bien établie, couramment utilisée pour explorer et visualiser les données. Un modèle classique d'ACP est le modèle à effet fixe où les données sont générées comme une structure fixe de faible rang corrompue par le bruit. Dans ce modèle, l'ACP ne fournit pas la meilleure récupération du signal sous-jacent en termes d'erreur quadratique moyenne. En suivant le même principe que pour la régression ridge, nous proposons une version régularisée de l'ACP qui se résume à seuiller les valeurs singulières. Chaque valeur singulière est multipliée par un terme qui peut être considéré comme le rapport de la variance du signal sur la variance totale de la dimension associée. Le terme régularisé est dérivé analytiquement en utilisant des résultats asymptotiques et peut également être justifié à partir d'un traitement bayésien du modèle. L'ACP régularisée fournit des résultats prometteurs en termes de récupération du vrai signal et des sorties graphiques par rapport à l'ACP classique et à une stratégie d'estimation par seuillage doux. L'écart entre l'ACP et l'ACP régularisée est d'autant plus important que les données sont bruitées.
Les affiliations sont détectées à partir des signatures des publications identifiées dans scanR. Un auteur peut donc apparaître affilié à plusieurs structures ou tutelles en fonction de ces signatures. Les dates affichées correspondent seulement aux dates des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr