GAIFFAS Stephane

< Retour à ILB Patrimoine
Thématiques des productions
Affiliations
  • 2014 - 2019
    Centre de mathématiques appliquées
  • 2004 - 2019
    Laboratoire de probabilités et modèles aléatoires
  • 2018 - 2020
    Département de mathématiques et applications de l'ENS
  • 2014 - 2019
    Détermination de Formes Et Identification
  • 2004 - 2005
    Université Paris Diderot
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2012
  • 2005
  • AMF : Forêts de Mondrian agrégées pour l'apprentissage en ligne.

    Jaouad MOURTADA, Stephane GAIFFAS, Erwan SCORNET
    Journal of the Royal Statistical Society: Series B (Statistical Methodology) | 2021
    Pas de résumé disponible.
  • Taux optimaux Minimax pour les arbres et forêts de Mondrian.

    Jaouad MOURTADA, Stephane GAIFFAS, Erwan SCORNET
    The Annals of Statistics | 2020
    Pas de résumé disponible.
  • AMF : Aggregated Mondrian Forests for Online Learning (Forêts de Mondrian agrégées pour l'apprentissage en ligne).

    Jaouad MOURTADA, Stephane GAIFFAS, Erwan SCORNET
    2020
    Les forêts aléatoires (RF) sont l'un des algorithmes de choix dans de nombreuses applications d'apprentissage supervisé, qu'il s'agisse de classification ou de régression. L'attrait de ces méthodes d'assemblage d'arbres provient de la combinaison de plusieurs caractéristiques : une précision remarquable dans une variété de tâches, un petit nombre de paramètres à régler, la robustesse par rapport à l'échelonnement des caractéristiques, un coût de calcul raisonnable pour la formation et la prédiction, et leur adéquation à des paramètres de haute dimension. Les variantes de RF les plus couramment utilisées sont cependant des algorithmes "hors ligne", qui nécessitent la disponibilité de l'ensemble des données en une seule fois. Dans cet article, nous présentons AMF, un algorithme de forêt aléatoire en ligne basé sur les forêts de Mondrian. En utilisant une variante de l'algorithme de pondération de l'arbre contextuel, nous montrons qu'il est possible d'effectuer efficacement une agrégation exacte sur toutes les tailles des arbres. En particulier, cela permet d'obtenir un véritable algorithme en ligne sans paramètre qui est compétitif avec la taille optimale de l'arbre de Mondrian, et donc adaptatif à la régularité inconnue de la fonction de régression. Les expériences numériques montrent que l'AMF est compétitif par rapport à plusieurs lignes de base fortes sur un grand nombre de jeux de données pour la classification multi-classes.
  • Un estimateur impropre avec un excès de risque optimal dans l'estimation de densité mal spécifiée et la régression logistique.

    Jaouad MOURTADA, Stephane GAIFFAS
    2020
    Nous introduisons une procédure d'estimation prédictive de la densité conditionnelle sous perte logarithmique, que nous appelons SMP (Sample Minmax Predictor). Cet estimateur minimise une nouvelle limite générale de risque excédentaire pour l'apprentissage statistique supervisé. Sur des exemples standards, cette limite s'échelonne comme $d/n$ avec $d$ la dimension du modèle et $n$ la taille de l'échantillon, et reste critiquement valide en cas de mauvaise spécification du modèle. Comme il s'agit d'une procédure impropre (hors modèle), le SMP est meilleur que les estimateurs à l'intérieur du modèle, comme l'estimateur du maximum de vraisemblance, dont l'excès de risque se dégrade en cas de mauvaise spécification. Par rapport aux approches réduisant au problème séquentiel, nos limites éliminent les facteurs sous-optimaux $\log n$, ce qui répond à un problème ouvert de Gr\"unwald et Kotlowski pour les modèles considérés, et peuvent traiter des classes non limitées. Pour le modèle linéaire gaussien, les prédictions et la limite de risque de SMP sont régies par les scores de levier des covariables, ce qui correspond presque au risque optimal dans le cas bien spécifié sans conditions sur la variance du bruit ou l'erreur d'approximation du modèle linéaire. Pour la régression logistique, le SMP fournit une approche non bayésienne de la calibration des prédictions probabilistes reposant sur des échantillons virtuels, et peut être calculé en résolvant deux régressions logistiques. Il atteint un excès de risque non asymptotique de $O ( (d + B^2R^2)/n )$, où $R$ limite la norme des caractéristiques et $B$ celle du paramètre de comparaison. En revanche, aucun estimateur interne au modèle ne peut atteindre un meilleur taux que $\min( {B R}/{\sqrt{n}}, {d e^{BR}}/{n} )$ en général. Cela fournit une alternative plus efficace sur le plan informatique aux approches bayésiennes, qui nécessitent un échantillonnage postérieur approximatif, répondant ainsi partiellement à une question de Foster et al. (2018).
  • L'apprentissage automatique et les données de santé massives.

    Emmanuel BACRY, Stephane GAIFFAS
    Healthcare and Artificial Intelligence | 2020
    Pas de résumé disponible.
  • ZiMM : Un modèle d'apprentissage profond pour les rechutes à long terme et floues avec des données de réclamations non cliniques.

    Anastasiia KABESHOVA, Yiyang YU, Bertrand LUKACS, Emmanuel BACRY, Stephane GAIFFAS
    Journal of Biomedical Informatics | 2020
    Pas de résumé disponible.
  • Processus de Hawkes multivariés épars et à faible rang.

    Emmanuel BACRY, Martin BOMPAIRE, Stephane GAIFFAS, Jean francois MUZY
    Journal of Machine Learning Research | 2020
    Nous considérons le problème de dévoiler la structure implicite du réseau des interactions entre les nœuds (comme les interactions entre les utilisateurs dans un réseau social), en se basant uniquement sur des timestamps à haute fréquence. Notre inférence est basée sur la minimisation de la perte des moindres carrés associée à un modèle de Hawkes multivarié, pénalisé par L1 et la norme de trace du tenseur d'interaction. Nous fournissons une première analyse théorique pour ce problème, qui inclut la sparsité et les pénalisations induisant un faible rang. Ce résultat implique une nouvelle inégalité de concentration pour les martingales matricielles en temps continu avec une variance observable, qui est un résultat d'intérêt indépendant et un large éventail d'applications possibles puisqu'il étend aux martingales matricielles d'anciens résultats restreints au cas scalaire. L'une des conséquences de notre analyse est la construction de pénalisations L1 et de la norme de trace fortement ajustées, qui conduisent à une mise à l'échelle de la variabilité de l'information disponible pour chaque utilisateur en fonction des données. Des expériences numériques illustrent les améliorations significatives obtenues par l'utilisation de ces pénalisations basées sur les données.
  • SCALPEL3 : une bibliothèque open-source évolutive pour les bases de données de demandes de remboursement de soins de santé.

    Emmanuel BACRY, Stephane GAIFFAS, Fanny LEROY, Maryan MOREL, Dinh phong NGUYEN, Youcef SEBIAT, Dian SUN
    International Journal of Medical Informatics | 2020
    Pas de résumé disponible.
  • Sur l'optimalité de l'algorithme de Hedge dans le régime stochastique.

    Jaouad MOURTADA, Stephane GAIFFAS
    Journal of Machine Learning Research | 2019
    Dans cet article, nous étudions le comportement de l'algorithme Hedge dans le cadre stochastique en ligne. Nous prouvons que l'algorithme Hedge à tout moment avec un taux d'apprentissage décroissant, qui est l'un des algorithmes les plus simples pour le problème de la prédiction avec avis d'experts, est remarquablement à la fois optimal dans le pire des cas et adaptatif aux problèmes stochastiques et adversatifs avec un écart plus faciles. Cela montre que, malgré son petit taux d'apprentissage non adaptatif, Hedge possède la même garantie de regret optimal dans le cas stochastique que les algorithmes adaptatifs récemment introduits. De plus, notre analyse montre des différences qualitatives avec d'autres versions de l'algorithme de Hedge, telles que la variante à horizon fixe (avec un taux d'apprentissage constant) et celle basée sur le "truc du doublement", qui ne s'adaptent pas au cadre stochastique plus facile. Enfin, nous déterminons les limites intrinsèques de l'algorithme de Hedge à tout moment dans le cas stochastique, et nous discutons des améliorations apportées par des algorithmes plus adaptatifs.
  • Inférence éparse de la dérive d'un processus Ornstein-Uhlenbeck de haute dimension.

    Stephane GAIFFAS, Gustaw MATULEWICZ
    Journal of Multivariate Analysis | 2019
    Pas de résumé disponible.
  • Apprentissage statistique à partir de variables catégorielles non-uniformisées.

    Patricio CERDA REYES, Gael VAROQUAUX, Marc SCHOENAUER, Gael VAROQUAUX, Marc SCHOENAUER, Laurent CHARLIN, Stephane GAIFFAS, Charles BOUVEYRON, Patrick VALDURIEZ, Balazs KEGL, Laurent CHARLIN, Stephane GAIFFAS
    2019
    Les données de type tabulaire contiennent souvent des variables catégorielles, considérées comme des entrées non numériques avec un nombre fixe et limité d'éléments uniques, appelés catégories. De nombreux algorithmes d’apprentissage statistique nécessitent une représentation numérique des variables catégorielles. Une étape d'encodage est donc nécessaire pour transformer ces entrées en vecteurs. Pour cela, plusieurs stratégies existent, dont la plus courante est celle de l'encodage one-hot, qui fonctionne bien dans le cadre de l'analyse statistique classique (en termes de puissance de prédiction et d'interprétation) lorsque le nombre de catégories reste faible. Cependant, les données catégorielles non-uniformisées présentent le risque d'avoir une grande cardinalité et des redondances. En effet, les entrées peuvent partager des informations sémantiques et/ou morphologiques, et par conséquent, plusieurs entrées peuvent refléter la même entité. Sans une étape de nettoyage ou d'agrégation au préalable, les méthodes d'encodage courantes peuvent perdre en efficacité du fait d'une représentation vectorielle erronée. En outre, le risque d'obtenir des vecteurs de très grandes dimensions croit avec la quantité de données, ce qui empêche leur utilisation dans l'analyse de données volumineuses. Dans ce document, nous étudions une série de méthodes d’encodage qui permettent de travailler directement sur des variables catégorielles à grande cardinalité, sans qu'il soit nécessaire de les traiter en amont. A l'aide d'expériences menées sur des données réelles et simulées, nous démontrons que les méthodes proposées dans le cadre de cette thèse améliorent l'apprentissage supervisé et ce, en autre, du fait de leur capacité à capturer correctement l'information morphologique des entrées. Même avec des données volumineuses, ces méthodes s'avèrent être performantes, et dans certains cas, elles génèrent des vecteurs facilement interprétables. Par conséquent, nos méthodes peuvent être appliquées à l'apprentissage statistique automatique (AutoML) sans aucune intervention humaine.
  • Différencier l'asthme de la bronchopneumopathie chronique obstructive (BPCO) dans les bases de données médico-économiques : mythe ou réalité ?

    Milka MARAVIC, Raphael SIGOGNE, Arnaud BOURDIN, Nicolas ROCHE, Sara MOUNIR, Dejan MILIC, Morgan GEOFFROY, Stephane GAIFFAS, Emmanuel BACRY
    Epidemiology | 2019
    Pas de résumé disponible.
  • Apprentissage automatique basé sur les processus de Hawkes et l'optimisation stochastique.

    Martin BOMPAIRE, Emmanuel BACRY, Stephane GAIFFAS, Alexandre GRAMFORT, Emmanuel BACRY, Stephane GAIFFAS, Alexandre GRAMFORT, Julien MAIRAL, Hansen NIELS RICHARD, Guillaume GARRIGOS, Julien MAIRAL, Hansen NIELS RICHARD
    2019
    Le fil rouge de cette thèse est l'étude des processus de Hawkes. Ces processus ponctuels décryptent l'inter-causalité qui peut avoir lieu entre plusieurs séries d'événements. Concrètement, ils déterminent l'influence qu'ont les événements d'une série sur les événements futurs de toutes les autres séries. Par exemple, dans le contexte des réseaux sociaux, ils décrivent à quel point l'action d'un utilisateur, par exemple un Tweet, sera susceptible de déclencher des réactions de la part des autres.Le premier chapitre est une brève introduction sur les processus ponctuels suivie par un approfondissement sur les processus de Hawkes et en particulier sur les propriétés de la paramétrisation à noyaux exponentiels, la plus communément utilisée. Dans le chapitre suivant, nous introduisons une pénalisation adaptative pour modéliser, avec des processus de Hawkes, la propagation de l'information dans les réseaux sociaux. Cette pénalisation est capable de prendre en compte la connaissance a priori des caractéristiques de ces réseaux, telles que les interactions éparses entre utilisateurs ou la structure de communauté, et de les réfléchir sur le modèle estimé. Notre technique utilise des pénalités pondérées dont les poids sont déterminés par une analyse fine de l'erreur de généralisation.Ensuite, nous abordons l'optimisation convexe et les progrès réalisés avec les méthodes stochastiques du premier ordre avec réduction de variance. Le quatrième chapitre est dédié à l'adaptation de ces techniques pour optimiser le terme d'attache aux données le plus couramment utilisé avec les processus de Hawkes. En effet, cette fonction ne vérifie pas l'hypothèse de gradient-Lipschitz habituellement utilisée. Ainsi, nous travaillons avec une autre hypothèse de régularité, et obtenons un taux de convergence linéaire pour une version décalée de Stochastic Dual Coordinate Ascent qui améliore l'état de l'art. De plus, de telles fonctions comportent beaucoup de contraintes linéaires qui sont fréquemment violées par les algorithmes classiques du premier ordre, mais, dans leur version duale ces contraintes sont beaucoup plus aisées à satisfaire. Ainsi, la robustesse de notre algorithme est d'avantage comparable à celle des méthodes du second ordre dont le coût est prohibitif en grandes dimensions.Enfin, le dernier chapitre présente une nouvelle bibliothèque d'apprentissage statistique pour Python 3 avec un accent particulier mis sur les modèles temporels. Appelée tick, cette bibliothèque repose sur une implémentation en C++ et les algorithmes d'optimisation issus de l'état de l'art pour réaliser des estimations très rapides dans un environnement multi-cœurs. Publiée sur Github, cette bibliothèque a été utilisée tout au long de cette thèse pour effectuer des expériences.
  • L'auto-exclusion chez les joueurs de poker en ligne : effet sur le temps et l'argent par rapport à des témoins appariés.

    A DUGRAVOT, Henri PANJO, Amine BENYAMINA, Stephane GAIFFAS, Emmanuel BACRY, Luquiens AMANDINE
    International Journal of Environmental Research and Public Health | 2019
    Pas de résumé disponible.
  • ConvSCCS : modèle convolutif de séries de cas auto-contrôlées pour la détection d'événements indésirables décalés.

    Maryan MOREL, Emmanuel BACRY, Stephane GAIFFAS, Agathe GUILLOUX, Fanny LEROY
    Biostatistics | 2019
    La disponibilité accrue de grandes bases de données de dossiers médicaux électroniques offre la possibilité d'améliorer le dépistage des risques sanitaires. La plupart des détections post-marketing des effets indésirables des médicaments (EIM) reposent sur les déclarations spontanées des médecins, ce qui entraîne une sous-déclaration. Pour relever ce défi, nous développons un modèle évolutif pour estimer l'effet de multiples caractéristiques longitudinales (exposition aux médicaments) sur un résultat longitudinal rare. Notre procédure est basée sur un modèle de régression conditionnelle de Poisson, également connu sous le nom de série de cas auto-contrôlée (SCCS). Pour surmonter la nécessité d'une spécification précise des périodes de risque, nous modélisons l'intensité des résultats en utilisant une convolution entre les expositions et les fonctions de pas, qui sont pénalisées en utilisant une combinaison de groupe-Lasso et de variation totale. À notre connaissance, il s'agit du premier modèle SCCS avec une intensité flexible capable de traiter plusieurs caractéristiques longitudinales dans un seul modèle. Nous montrons que cette approche améliore l'état de l'art en termes d'erreur absolue moyenne et de temps de calcul pour l'estimation des risques relatifs sur des données simulées. Nous appliquons cette méthode à un problème de détection d'EIM, en utilisant une cohorte de patients diabétiques extraite de la grande base de données nationale française de l'assurance maladie (SNIIRAM), une base de données de réclamations contenant les remboursements médicaux de plus de 53 millions de personnes. Ce travail a été réalisé dans le cadre d'un partenariat de recherche entre l'Ecole Polytechnique et la CNAMTS (en charge du SNIIRAM).
  • L'auto-exclusion chez les joueurs de poker en ligne : Effets sur les dépenses en temps et en argent par rapport à des témoins appariés.

    Amandine LUQUIENS, Aline DUGRAVOT, Henri PANJO, Amine BENYAMINA, Stephane GAIFFAS, Emmanuel BACRY
    International Journal of Environmental Research and Public Health | 2019
    Aucune donnée comparative n'est disponible pour rendre compte de l'effet de l'auto-exclusion en ligne. L'objectif de cette étude était d'évaluer l'effet de l'auto-exclusion dans les jeux de poker en ligne par rapport à des témoins appariés, après la fin de la période d'auto-exclusion. Méthodes : Nous avons inclus tous les joueurs qui se sont auto-exclus pour la première fois sur une période de 7 ans (n = 4887) sur un site de poker, et des joueurs appariés pour le sexe, l'âge et la durée du compte (n = 4451). Nous rapportons les effets dans le temps de l'auto-exclusion après sa fin, sur l'argent (pertes nettes) et le temps passé (durée de la session) en utilisant une procédure d'analyse de variance entre modèles mixtes avec et sans l'interaction du temps et de l'auto-exclusion. Les analyses ont été effectuées sur l'ensemble de l'échantillon, sur les sous-groupes les plus impliqués en termes de temps ou d'argent (quartiles supérieurs) et parmi les auto-exclus de courte durée (<3 mois). Résultats : Des effets significatifs de l'auto-exclusion et de l'auto-exclusion de courte durée ont été trouvés pour l'argent et le temps passé sur 12 mois. Parmi les joueurs les plus impliqués financièrement, aucun effet significatif sur le montant dépensé n'a été trouvé. Parmi les joueurs qui étaient les plus impliqués en termes de temps, un effet significatif a été trouvé sur le temps passé. Les auto-exclusions de courte durée n'ont pas montré d'effet significatif sur les joueurs les plus impliqués. Conclusions : L'auto-exclusion semble efficace à long terme. Cependant, l'effet sur l'argent dépensé des auto-exclusions et des auto-exclusions de courte durée devrait être étudié plus en détail chez les joueurs les plus impliqués.
  • Différencier l'asthme de la bronchopneumopathie chronique obstructive (BPCO) dans les bases de données médico-économiques : mythe ou réalité ?

    Milka MARAVIC, Raphael SIGOGNE, Nicolas ROCHE, Sarah MOUNIR, Dejan MILIC, Morgan GEOFFROY, Stephane GAIFFAS, Emmanuel BACRY, Arnaud BOURDIN
    ERS International Congress | 2019
    Pas de résumé disponible.
  • SCALPEL3 : une bibliothèque open-source évolutive pour les bases de données de demandes de remboursement de soins de santé.

    Emmanuel BACRY, Stephane GAIFFAS, Maryan MOREL, D.p. NGUYEN, Youcef SEBIAT, Dian SUN, Fanny LEROY
    2019
    Pas de résumé disponible.
  • ZiMM : un modèle d'apprentissage profond pour les événements indésirables à long terme avec des données de réclamations non cliniques.

    Emmanuel BACRY, Stephane GAIFFAS, Anastasiia KABESHOVA, Yiyang YU
    2019
    Pas de résumé disponible.
  • Optimisation double pour les objectifs contraints convexes sans les hypothèses de gradient-Lipschitz.

    Stephane GAIFFAS, Martin BOMPAIRE, Emmanuel BACRY
    2019
    Pas de résumé disponible.
  • ConvSCCS : modèle convolutif de cas-séris auto-contrôlé pour la détection d'événements adverses décalés.

    Maryan MOREL, Emmanuel BACRY, Stephane GAIFFAS, Agathe GUILLOUX, Fanny LEROY
    Biostatistics | 2019
    Pas de résumé disponible.
  • C-mix : Un modèle de mélange à haute dimension pour les durées censurées, avec des applications aux données génétiques.

    Simon BUSSY, Agathe GUILLOUX, Stephane GAIFFAS, Anne sophie JANNOT
    Statistical Methods in Medical Research | 2018
    Nous introduisons un modèle de mélange à apprentissage supervisé pour les durées censurées (C-mix) afin de détecter simultanément des sous-groupes de patients ayant un pronostic différent et de les ordonner en fonction de leur risque. Notre méthode est applicable dans un cadre à haute dimension, c'est-à-dire avec un grand nombre de covariables biomédicales. En effet, nous pénalisons la log-vraisemblance négative par le réseau élastique, ce qui conduit à une paramétrisation éparse du modèle et permet d'identifier automatiquement les covariables pertinentes pour la prédiction de la survie. L'inférence est réalisée à l'aide d'un algorithme efficace de maximisation de l'espérance de Quasi-Newton (QNEM), pour lequel nous fournissons des propriétés de convergence. Les performances statistiques de la méthode sont examinées dans le cadre d'une étude approfondie de simulation de Monte Carlo, et enfin illustrées sur trois ensembles de données génétiques sur le cancer disponibles publiquement avec des covariables à haute dimension. Nous montrons que notre approche surpasse les modèles de survie de pointe dans ce contexte, à savoir les modèles CURE et à risques proportionnels de Cox pénalisés par le réseau élastique, en termes de C-index, d'AUC(t) et de prédiction de survie. Ainsi, nous proposons un outil puissant pour la médecine personnalisée en cancérologie.
  • Régression robuste à haute dimension et détection des valeurs aberrantes avec pente.

    Alain VIROULEAU, Agathe GUILLOUX, Stephane GAIFFAS, Malgorzata BOGDAN
    2018
    Les problèmes de détection des valeurs aberrantes et de régression robuste dans un cadre hautement dimensionnel sont fondamentaux en statistique et ont de nombreuses applications. Suite à un ensemble de travaux récents fournissant des méthodes pour la régression robuste et la détection simultanée de valeurs aberrantes, nous considérons dans cet article un modèle de régression linéaire avec des intercepts individuels, dans un cadre hautement dimensionnel. Nous introduisons une nouvelle procédure pour l'estimation simultanée des coefficients de régression linéaire et des intercepts, en utilisant deux pénalisations triées-1 dédiées, également appelée SLOPE [5]. Nous développons une théorie complète pour ce problème : tout d'abord, nous fournissons des limites supérieures nettes sur l'erreur d'estimation statistique du vecteur des intercepts individuels et des coefficients de régression. Ensuite, nous donnons un contrôle asymptotique du taux de fausse découverte (FDR) et de la puissance statistique pour la sélection du support des intercepts individuels. Par conséquent, cet article est le premier à présenter une procédure avec un contrôle garanti du FDR et de la puissance statistique pour la détection des valeurs aberrantes dans le cadre du modèle de déplacement de la moyenne. Des illustrations numériques, avec une comparaison avec des approches alternatives récentes, sont fournies sur des ensembles de données simulées et plusieurs ensembles de données du monde réel. Les expériences sont menées à l'aide d'un logiciel open-source écrit en Python et C++.
  • Découverte de la causalité à partir de cumulants intégrés de Hawkes multivariés.

    Massil ACHAB, Emmanuel BACRY, Stephane GAIFFAS, Jean francois MUZY, Iacopo MASTROMATTEO
    Journal of Machine Learning Research | 2018
    Nous concevons une nouvelle méthode non paramétrique qui permet d'estimer la matrice des noyaux intégrés d'un processus de Hawkes multivarié. Cette matrice encode non seulement les influences mutuelles de chaque nœud du processus, mais démêle également les relations de causalité entre eux. Notre approche est la première qui conduit à une estimation de cette matrice sans aucune modélisation paramétrique ni estimation des noyaux eux-mêmes. Par conséquent, elle peut donner une estimation des relations de causalité entre les nœuds (ou les utilisateurs), sur la base de l'horodatage de leurs activités (sur un réseau social par exemple), sans connaître ou estimer la forme de la durée de vie des activités. Dans ce but, nous introduisons une méthode d'appariement des moments qui s'adapte aux cumulants intégrés d'ordre 2 et 3 du processus. Une analyse théorique nous permet de prouver que cette nouvelle technique d'estimation est cohérente. De plus, nous montrons, par des expériences numériques, que notre approche est en effet très robuste par rapport à la forme des noyaux et donne des résultats intéressants sur la base de données MemeTracker et sur les données du carnet d'ordres financier.
  • Description et évaluation de la fiabilité des motifs d'auto-exclusion déclarés par les joueurs de poker en ligne dans une cohorte utilisant des données de jeu basées sur les comptes.

    Amandine LUQUIENS, Delphine VENDRYES, Henri jean AUBIN, Amine BENYAMINA, Stephane GAIFFAS, Emmanuel BACRY
    BMJ Open | 2018
    Pas de résumé disponible.
  • Estimation de matrices à haute dimension avec variance inconnue du bruit.

    Olga KLOPP, Stephane GAIFFAS
    Statistica Sinica | 2017
    Nous proposons une nouvelle méthode pivot pour l'estimation de matrices de haute dimension. Supposons que nous observons un petit ensemble d'entrées ou de combinaisons linéaires d'entrées d'une matrice inconnue $A_0$ corrompue par le bruit. Nous proposons une nouvelle méthode d'estimation de $A_0$ qui ne repose pas sur la connaissance ou l'estimation de l'écart-type du bruit $\sigma$. Notre estimateur atteint, jusqu'à un facteur logarithmique, des taux de convergence optimaux sous le risque de Frobenius et, ainsi, a la même performance de prédiction que les estimateurs proposés précédemment qui reposent sur la connaissance de $\sigma$. Notre méthode est basée sur la résolution d'un problème d'optimisation convexe, ce qui la rend attrayante sur le plan informatique.
  • C-mix : un modèle de mélange à haute dimension pour les durées censurées, avec des applications aux données génétiques.

    Simon BUSSY, Agathe GUILLOUX, Stephane GAIFFAS, Anne sophie JANNOT
    2017
    Nous introduisons un modèle de mélange à apprentissage supervisé pour les durées censurées (C-mix) afin de détecter simultanément des sous-groupes de patients ayant un pronostic différent et de les ordonner en fonction de leur risque. Notre méthode est applicable dans un cadre à haute dimension, c'est-à-dire avec un grand nombre de covariables biomédicales. En effet, nous pénalisons la log-vraisemblance négative par le réseau élastique, ce qui conduit à une paramétrisation éparse du modèle et permet d'identifier automatiquement les covariables pertinentes pour la prédiction de la survie. L'inférence est réalisée à l'aide d'un algorithme efficace de maximisation de l'espérance de Quasi-Newton (QNEM), pour lequel nous fournissons des propriétés de convergence. Les performances statistiques de la méthode sont examinées dans le cadre d'une étude approfondie de simulation de Monte Carlo, et enfin illustrées sur trois ensembles de données génétiques sur le cancer disponibles publiquement avec des covariables à haute dimension. Nous montrons que notre approche surpasse les modèles de survie de pointe dans ce contexte, à savoir les modèles CURE et à risques proportionnels de Cox pénalisés par le réseau élastique, en termes d'indice C, d'AUC(t) et de prédiction de survie. Ainsi, nous proposons un outil puissant pour la médecine personnalisée en cancérologie.
  • Inférence statistique des processus Ornstein-Uhlenbeck : génération de graphes stochastiques, sparsité, applications en finance.

    Gustaw MATULEWICZ, Emmanuel GOBET, St?phane GA?FFAS, Mathieu ROSENBAUM, Emmanuel GOBET, St?phane GA?FFAS, Mohamed BEN ALAYA, Sylvain DELATTRE, Marina KLEPTSYNA, Markus REI?
    2017
    Le sujet de cette th?se est l'inf?rence statistique de processus d'Ornstein-Uhlenbeck multi-dimensionnels. Dans une premi?re partie, nous introduisons un mod?le de graphes stochastiques d?finis comme observations binaires de trajectoires. Nous montrons alors qu'il est possible de d?duire la dynamique de la trajectoire sous-jacente ? partir des observations binaires. Pour ceci, nous construisons des statistiques ? partir du graphe et montrons de nouvelles propri?t?s de convergence dans le cadre d'une observation en temps long et en haute fr?quence. Nous analysons aussi les propri?t?s des graphes stochastiques du point de vue des r?seaux ?volutifs. Dans une deuxi?me partie, nous travaillons sous l'hypoth?se d'information compl?te et en temps continu et ajoutons une hypoth?se de sparsit? concernant le param?tre de textit{drift} du processus d'Ornstein-Uhlenbeck. Nous montrons alors des propri?t?s d'oracle pointues de l'estimateur Lasso, prouvons une borne inf?rieure sur l'erreur d'estimation au sens minimax et d?montrons des propri?t?s d'optimalit? asymptotique de l'estimateur Lasso Adaptatif. Nous appliquons ensuite ces m?thodes pour estimer la vitesse de retour ? la moyenne des retours journaliers d'actions am?ricaines ainsi que des prix de futures de dividendes pour l'indice EURO STOXX 50.
  • Binarsity : une pénalisation pour les caractéristiques codées à un coup.

    Mokhtar z. ALAYA, Simon BUSSY, Stephane GAIFFAS, Agathe GUILLOUX
    2017
    Cet article traite du problème de l'apprentissage supervisé linéaire à grande échelle dans des contextes où un grand nombre de caractéristiques continues sont disponibles. Nous proposons de combiner l'astuce bien connue du codage à un coup des caractéristiques continues avec une nouvelle pénalisation appelée binarsité. Dans chaque groupe de caractéristiques binaires provenant de l'encodage à un coup d'une seule caractéristique continue brute, cette pénalisation utilise la régularisation de la variation totale ainsi qu'une contrainte linéaire supplémentaire pour éviter la colinéarité au sein des groupes. Des inégalités d'oracle non asymptotiques pour les modèles linéaires généralisés sont proposées, et des expériences numériques illustrent les bonnes performances de notre approche sur plusieurs ensembles de données. Il est également à noter que notre méthode a une complexité numérique comparable à la pénalisation L1 standard.
  • Inégalités de concentration pour les martingales matricielles en temps continu.

    Emmanuel BACRY, Stephane GAIFFAS, Jean francois MUZY
    Probability Theory and Related Fields | 2017
    Pas de résumé disponible.
  • Apprentissage statistique pour s?quences d??v?nements ? l?aide de processus ponctuels.

    Massil ACHAB, Emmanuel BACRY, St?phane GA?FFAS, Nicolas VAYATIS, Emmanuel BACRY, St?phane GA?FFAS, Vincent RIVOIRARD, Manuel GOMEZ RODRIGUEZ, Nils richard HANSEN
    2017
    Le but de cette th?se est de montrer que l'arsenal des nouvelles m?thodes d'optimisation permet de r?soudre des probl?mes d'estimation difficile bas?s sur les mod?les d'?v?nements.Alors que le cadre classique de l'apprentissage supervis? traite les observations comme une collection de couples de covariables et de label, les mod?les d'?v?nements ne regardent que les temps d'arriv?e d'?v?nements et cherchent alors ? extraire de l'information sur la source de donn?e.Ces ?v?nements dat?s sont ordonn?s de fa?on chronologique et ne peuvent d?s lors ?tre consid?r?s comme ind?pendants.Ce simple fait justifie l'usage d'un outil math?matique particulier appel? processus ponctuel pour apprendre une certaine structure ? partir de ces ?v?nements.Deux exemples de processus ponctuels sont ?tudi?s dans cette th?se.Le premier est le processus ponctuel derri?re le mod?le de Cox ? risques proportionnels:son intensit? conditionnelle permet de d?finir le ratio de risque, une quantit? fondamentale dans la litt?rature de l'analyse de survie.Le mod?le de r?gression de Cox relie la dur?e avant l'apparition d'un ?v?nement, appel? d?faillance, aux covariables d'un individu.Ce mod?le peut ?tre reformul? ? l'aide du cadre des processus ponctuels.Le second est le processus de Hawkes qui mod?lise l'impact des ?v?nements pass?s sur la probabilit? d'apparition d'?v?nements futurs.Le cas multivari? permet d'encoder une notion de causalit? entre les diff?rentes dimensions consid?r?es.Cette th?se est divis?e en trois parties.La premi?re s'int?resse ? un nouvel algorithme d'optimisation que nous avons d?velopp?.Il permet d'estimer le vecteur de param?tre de la r?gression de Cox lorsque le nombre d'observations est tr?s important.Notre algorithme est bas? sur l'algorithme SVRG (Stochastic Variance Reduced Gradient) et utilise une m?thode MCMC (Monte Carlo Markov Chain) pour approcher un terme de la direction de descente.Nous avons prouv? des vitesses de convergence pour notre algorithme et avons montr? sa performance num?rique sur des jeux de donn?es simul?s et issus de monde r?el.La deuxi?me partie montre que la causalit? au sens de Hawkes peut ?tre estim?e de mani?re non-param?trique gr?ce aux cumulants int?gr?s du processus ponctuel multivari?.Nous avons d?velopper deux m?thodes d'estimation des int?grales des noyaux du processus de Hawkes, sans faire d'hypoth?se sur la forme de ces noyaux. Nos m?thodes sont plus rapides et plus robustes, vis-?-vis de la forme des noyaux, par rapport ? l'?tat de l'art. Nous avons d?montr? la consistence statistique de la premi?re m?thode, et avons montr? que la deuxi?me peut ?tre r?duite ? un probl?me d'optimisation convexe.La derni?re partie met en lumi?re les dynamiques de carnet d'ordre gr?ce ? la premi?re m?thode d'estimation non-param?trique introduite dans la partie pr?c?dente.Nous avons utilis? des donn?es du march? ? terme EUREX, d?fini de nouveaux mod?les de carnet d'ordre (bas?s sur les pr?c?dents travaux de Bacry et al.) et appliqu? la m?thode d'estimation sur ces processus ponctuels.Les r?sultats obtenus sont tr?s satisfaisants et coh?rents avec une analys? ?conom?trique.Un tel travail prouve que la m?thode que nous avons d?velopp? permet d'extraire une structure ? partir de donn?es aussi complexes que celles issues de la finance haute-fr?quence.
  • Concentration pour les martingales matricielles en temps continu et activité microscopique des réseaux sociaux.

    Emmanuel BACRY, Stephane GAIFFAS, J. f. MUZY
    Probability Theory and Related Fields | 2017
    Pas de résumé disponible.
  • Segmentation de Processus de Comptage et modèles Dynamiques.

    Elmokhtar ezzahdi ALAYA, Stephane GAIFFAS, Agathe GUILLOUX, Pierre ALQUIER, Sylvain ARLOT, Gerard BIAU, Erwan LE PENNEC
    2016
    Dans la première partie de cette thèse, nous cherchons à estimer l'intensité d'un processus de comptage par des techniques d'apprentissage statistique en grande dimension. Nous introduisons une procédure d'estimation basée sur la pénalisation par variation totale avec poids. Un premier ensemble de résultats vise à étudier l'intensité sous une hypothèse a priori de segmentation sparse. Dans une seconde partie, nous étudions la technique de binarisation de variables explicatives continues, pour laquelle nous construisons une régularisation spécifique à ce problème. Cette régularisation est intitulée ``binarsity'', elle pénalise les valeurs différentes d'un vecteur de paramètres. Dans la troisième partie, nous nous intéressons à la régression dynamique pour les modèles d'Aalen et de Cox avec coefficients et covariables en grande dimension, et pouvant dépendre du temps. Pour chacune des procédures d'estimation proposées, nous démontrons des inégalités oracles non-asymptotiques en prédiction. Nous utilisons enfin des algorithmes proximaux pour résoudre les problèmes convexes sous-jacents, et nous illustrons nos méthodes sur des données simulées et réelles.
  • Inférence du champ moyen des processus du point de Hawkes.

    Emmanuel BACRY, Stephane GAIFFAS, Iacopo MASTROMATTEO, Jean francois MUZY
    Journal of Physics A: Mathematical and Theoretical | 2016
    Nous proposons une méthode d'estimation rapide et efficace qui est capable de les paramètres d'un processus ponctuel de Hawkes de dimension d à partir d'un ensemble d'observations. d'observations. Nous exploitons une approximation du champ moyen qui est valable lorsque les fluctuations de l'intensité stochastique sont faibles. Nous montrons que c'est notamment le cas dans les situations où les interactions sont suffisamment faibles, lorsque la dimension du système est élevée ou lorsque les fluctuations s'auto-entretiennent en raison du grand nombre d'événements passés. en raison du grand nombre d'événements passés qu'elles impliquent. Dans un tel régime, l l'estimation d'un processus de Hawkes peut être ramenée à un problème de moindres carrés pour lequel nous fournissons une solution analytique. pour lequel nous fournissons une solution analytique. Bien que cet estimateur soit biaisé, nous montrons que sa précision peut être comparable à celle de l'estimateur du processus de Hawkes. que sa précision peut être comparable à celle de l'estimateur du maximum de vraisemblance tout en tandis que sa vitesse de calcul est considérablement améliorée. Nous Nous donnons un contrôle théorique sur la précision de notre nouvelle approche et illustrons Nous donnons un contrôle théorique sur la précision de notre nouvelle approche et illustrons son efficacité en utilisant des ensembles de données synthétiques, afin d'évaluer l'erreur l'erreur d'estimation statistique des paramètres.
  • Inférence du champ moyen des processus du point de Hawkes.

    Emmanuel BACRY, Stephane GAIFFAS, Iacopo MASTROMATTEO, Jean francois MUZY
    Journal of Physics A: Mathematical and Theoretical | 2016
    Nous proposons une méthode d'estimation rapide et efficace qui est capable de récupérer avec précision les paramètres d'un processus ponctuel de Hawkes à d -dimensions à partir d'un ensemble d'observations. Nous exploitons une approximation du champ moyen qui est valable lorsque les fluctuations de l'intensité stochastique sont faibles. Nous montrons que c'est notamment le cas lorsque les interactions sont suffisamment faibles, lorsque la dimension du système est élevée ou lorsque les fluctuations s'auto-entretiennent en raison du grand nombre d'événements passés qu'elles impliquent. Dans un tel régime, l'estimation d'un processus de Hawkes peut être ramenée à un problème de moindres carrés pour lequel nous fournissons une solution analytique. Bien que cet estimateur soit biaisé, nous montrons que sa précision peut être comparable à celle de l'estimateur du maximum de vraisemblance, tandis que sa vitesse de calcul est considérablement améliorée. Nous donnons un contrôle théorique sur la précision de notre nouvelle approche et illustrons son efficacité en utilisant des ensembles de données synthétiques, afin d'évaluer l'erreur d'estimation statistique des paramètres.
  • Apprendre l'intensité des événements temporels avec des points de changement.

    Mokhtar z. ALAYA, Stephane GAIFFAS, Agathe GUILLOUX
    2015
    Nous considérons le problème de l'apprentissage de l'intensité inhomogène d'un processus de comptage, sous l'hypothèse d'une segmentation éparse. Nous introduisons une pénalisation pondérée de la variation totale, en utilisant des poids basés sur les données qui échelonnent correctement la pénalisation le long de l'intervalle d'observation. Nous prouvons que cela conduit à un réglage précis de la relaxation convexe de la priorité de segmentation, en énonçant des inégalités d'oracle avec des taux de convergence rapides, et la cohérence pour la détection des points de changement. Ceci fournit les premières garanties théoriques pour la segmentation avec un proxy convexe au-delà du cadre standard signal i.i.d. + bruit blanc. Nous introduisons un algorithme rapide pour résoudre ce problème convexe. Des expériences numériques illustrent notre approche sur des données simulées et sur un ensemble de données génomiques à haute fréquence.
  • Apprendre l'intensité des événements temporels avec des points de changement.

    Mokhtar z. ALAYA, Stephane GAIFFAS, Agathe GUILLOUX
    IEEE Transactions on Information Theory | 2015
    Nous considérons le problème de l'apprentissage de l'intensité inhomogène d'un processus de comptage, sous l'hypothèse d'une segmentation éparse. Nous introduisons une pénalisation pondérée de la variation totale, en utilisant des poids basés sur les données qui échelonnent correctement la pénalisation le long de l'intervalle d'observation. Nous prouvons que cela conduit à un réglage précis de la relaxation convexe de la priorité de segmentation, en énonçant des inégalités d'oracle avec des taux de convergence rapides, et la cohérence pour la détection des points de changement. Ceci fournit les premières garanties théoriques pour la segmentation avec un proxy convexe au-delà du cadre standard signal i.i.d. + bruit blanc. Nous introduisons un algorithme rapide pour résoudre ce problème convexe. Des expériences numériques illustrent notre approche sur des données simulées et sur un ensemble de données génomiques à haute fréquence.
  • Méthodes de régularisation pour la prédiction dans les graphes dynamiques et applications de cybermarketing.

    Emile RICHARD, Nicolas VAYATIS, Francis BACH, Theodoros EVGENIOU, Stephane GAIFFAS, Michael irwin JORDAN, Thibaut MUNIER, Massimiliano PONTIL, Jean philippe VERT
    2012
    La prédiction de connexions entre objets, basée soit sur une observation bruitée, soit sur une suite d'observations est un problème d'intérêt pour un nombre d'applications allant de la conception de système de recommandation en commerce électronique et réseaux sociaux jusqu'à l'inférence de réseaux en biologie moléculaire. Ce travail présente des formulations du problème de prédiction de lien, dans les cadres statique et temporel, comme un problème régularisé. Dans le scénario statique c'est la combinaison de deux normes bien connues, la norme L1 et la trace-norme qui permet de prédire les liens, alors que dans le cas dynamique, l'utilisation d'un modèle autoregressif sur des descripteurs linéaires permet d'améliorer la qualité de la prédiction. Nous étudierons la nature des solutions des problèmes d'optimisation à la fois en termes statistique et algorithmique. Des résultats empiriques encourageant mettent en évidence l'apport de la méthodologie adoptée.
  • Régression non-paramétrique et information spatialement inhomogène.

    Stephane GAIFFAS, Marc HOFFMANN
    2005
    Pas de résumé disponible.
  • Régression non paramétrique et information spatialement inhomogène.

    Stephane GAIFFAS
    2005
    Nous étudions l'estimation non paramétrique d'un signal basé sur des données bruitées inhomogènes (la quantité de données varie sur le domaine d'estimation). Nous considérons le modèle de régression non paramétrique avec plan aléatoire. Notre objectif est de comprendre les conséquences de l'inhomogénéité des données sur le problème d'estimation dans la configuration minimax. Notre approche est double : locale et globale. Dans la configuration locale, nous voulons récupérer la régression à un point avec peu ou beaucoup de données. En traduisant cette propriété en plusieurs hypothèses sur la densité du plan, nous obtenons une large gamme de nouveaux taux minimax, contenant des taux très lents et très rapides. Ensuite, nous construisons une procédure adaptative de lissage, et nous montrons qu'elle converge avec un taux minimax pénalisé par un coût minimal. Dans la configuration globale, nous voulons récupérer la régression avec une perte de norme sup. Nous proposons des estimateurs qui convergent avec des taux qui sont sensibles au comportement inhomogène de l'information dans le modèle. Nous prouvons l'optimalité spatiale de ces taux, qui consiste en une application de la borne inférieure minimax classique pour la perte sup norm. En particulier, nous construisons un estimateur asymptotiquement net sur les boules de Hölder avec n'importe quelle régularité, et une bande de confiance avec une largeur qui s'adapte à la quantité locale de données.
Les affiliations sont détectées à partir des signatures des publications identifiées dans scanR. Un auteur peut donc apparaître affilié à plusieurs structures ou tutelles en fonction de ces signatures. Les dates affichées correspondent seulement aux dates des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr