VAYATIS Nicolas

< Retour à ILB Patrimoine
Thématiques des productions
Affiliations
  • 2019 - 2021
    Centre Borelli
  • 2019 - 2021
    Ecole normale supérieure de Paris-Saclay
  • 2005 - 2020
    Laboratoire de probabilités et modèles aléatoires
  • 2012 - 2019
    Centre de mathématiques et de leurs applications
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2009
  • 2006
  • Adaptation de domaine multi-source non supervisée pour la régression.

    Guillaume RICHARD, Antoine de MATHELIN, Georges HEBRAIL, Mathilde MOUGEOT, Nicolas VAYATIS
    Lecture Notes in Computer Science | 2021
    Pas de résumé disponible.
  • Syndrome d'apnée du sommeil et stimulation subthalamique dans la maladie de Parkinson.

    Panagiotis BARGIOTAS, Ioannis BARGIOTAS, Ines DEBOVE, M lenard LACHENMAYER, Nicolas VAYATIS, W m michael SCHUEPBACH, Claudio l a BASSETTI
    Sleep Medicine | 2021
    Pas de résumé disponible.
  • Interpolation localisée pour les signaux graphiques.

    A. MAZARGUIL, L. OUDRE, N. VAYATIS
    2020 28th European Signal Processing Conference (EUSIPCO) | 2021
    Pas de résumé disponible.
  • Apprentissage actif basé sur la discrépance pour l'adaptation au domaine.

    Antoine DE MATHELIN, Mathilde MOUGEOT, Nicolas VAYATIS
    2021
    L'objectif de cet article est de concevoir des stratégies d'apprentissage actif qui conduisent à une adaptation au domaine sous l'hypothèse d'un changement de domaine dans le cas d'une fonction d'étiquetage Lipschitz. En s'appuyant sur les travaux antérieurs de Mansour et al. (2009), nous adaptons le concept de distance de divergence entre les distributions source et cible pour restreindre la maximisation sur la classe d'hypothèses à une classe localisée de fonctions qui effectuent un étiquetage précis sur le domaine source. Nous dérivons des limites d'erreur de généralisation pour de telles stratégies d'apprentissage actif en termes de moyenne de Rademacher et de divergence localisée pour des fonctions de perte générales qui satisfont une condition de régularité. Des algorithmes pratiques sont déduits des limites théoriques, l'un est basé sur l'optimisation gloutonne et l'autre est un algorithme K-medoids. Nous fournissons également des versions améliorées des algorithmes pour traiter le cas des grands ensembles de données. Ces algorithmes sont compétitifs par rapport aux autres techniques d'apprentissage actif de pointe dans le contexte de l'adaptation au domaine, comme le montrent nos expériences numériques, en particulier sur de grands ensembles de données d'environ cent mille images.
  • Détection d'événements et inférence de structure pour les vecteurs graphiques.

    Batiste LE BARS, Nicolas VAYATIS, Charles BOUVEYRON, George MICHAILIDIS, Fabrice ROSSI, Gilles BLANCHARD, Argyris KALOGERATOS, Tabea REBAFKA, George MICHAILIDIS, Fabrice ROSSI
    2021
    Cette thèse aborde différents problèmes autour de l'analyse et la modélisation de signaux sur graphes, autrement dit des données vectorielles observées sur des graphes. Nous nous intéressons en particulier à deux tâches spécifique. La première est le problème de détection d'événements, c'est-à-dire la détection d'anomalies ou de ruptures, dans un ensemble de vecteurs sur graphes. La seconde tâche consiste en l'inférence de la structure de graphe sous-jacente aux vecteurs contenus dans un ensemble de données. Dans un premier temps notre travail est orienté vers l'application. Nous proposons une méthode pour détecter des pannes ou des défaillances d'antenne dans un réseau de télécommunication.La méthodologie proposée est conçue pour être efficace pour des réseaux de communication au sens large et tient implicitement compte de la structure sous-jacente des données. Dans un deuxième temps, une nouvelle méthode d'inférence de graphes dans le cadre du Graph Signal Processing est étudiée. Dans ce problème, des notions de régularité local et global, par rapport au graphe sous-jacent, sont imposées aux vecteurs. Enfin, nous proposons de combiner la tâche d'apprentissage des graphes avec le problème de détection de ruptures. Cette fois, un cadre probabiliste est considéré pour modéliser les vecteurs, supposés ainsi être distribués selon un certain champ aléatoire de Markov. Dans notre modélisation, le graphe sous-jacent aux données peut changer dans le temps et un point de rupture est détecté chaque fois qu'il change de manière significative.
  • Révélation du profil posturographique des patients atteints de syndromes parkinsoniens grâce à un nouveau cadre de test d'hypothèse basé sur l'apprentissage automatique.

    Ioannis BARGIOTAS, Argyris KALOGERATOS, Myrto LIMNIOS, Pierre paul VIDAL, Damien RICARD, Nicolas VAYATIS
    PLOS ONE | 2021
    Pas de résumé disponible.
  • Inégalités de concentration pour les processus de classement à deux échantillons avec application au classement bipartite.

    Stephan CLEMENCON, Myrto LIMNIOS, Nicolas VAYATIS
    2021
    La courbe ROC est l'étalon-or pour mesurer la performance d'une statistique de test/classement quant à sa capacité à discriminer entre deux populations statistiques dans une grande variété d'applications, allant de la détection d'anomalies dans le traitement du signal à la recherche d'informations, en passant par le diagnostic médical. La plupart des mesures de performance pratiques utilisées dans les applications de notation/classement, telles que l'AUC, l'AUC locale, la poussée p-normale, le DCG et autres, peuvent être considérées comme des résumés de la courbe ROC. Dans cet article, le fait que la plupart de ces critères empiriques peuvent être exprimés sous forme de statistiques de rang linéaire à deux échantillons est mis en évidence et des inégalités de concentration pour des collections de telles variables aléatoires, appelées ici processus de rang à deux échantillons, sont prouvées, lorsqu'elles sont indexées par des classes de fonctions de notation VC. Sur la base de ces limites nonasymptotiques, la capacité de généralisation des maximisateurs empiriques d'une large classe de critères de performance de classement est ensuite étudiée d'un point de vue théorique. Elle est également étayée par des preuves empiriques au moyen d'expériences numériques convaincantes.
  • Allocation séquentielle des ressources pour le contrôle de la diffusion du réseau.

    Mathilde FEKOM, Nicolas VAYATIS, Argyris KALOGERATOS, Pierre yves BOELLE, Jean pierre NADAL, Nicole IMMORLICA, Elisabeta VERGU, Theodoros EVGENIOU, Jean pierre NADAL, Nicole IMMORLICA
    2021
    L’endiguement dynamique d’un processus de diffusion indésirable sur réseau, comme une épidémie, exige d’un décideur (DM) qu’il soit capable de répondre à son évolution en prenant les bonnes mesures de con- trôle au bon moment. Cette tâche peut être considérée comme la gestion de l’allocation d’une quantité limitée de ressources aux nœuds du réseau, avec pour objectif de réduire les effets du processus.Dans cette thèse, nous étendons le problème de l’allocation dynamique de ressources (DRA) et pro- posons un cadre de contrôle dynamique à itéra- tions/tours multiples, que nous réalisons grâce à deux modèles dérivés: le DRA restreint et le DRA séquen- tiel (RDRA, SDRA). Contrairement aux considérations standards dans lesquelles l’information et l’accès sont complets, ces nouveaux modèles prennent en compte les éventuelles restrictions d’accès concernant les informa- tions disponibles sur le réseau et/ou la capacité à agir sur ses nœuds. À chaque cycle d’intervention, le DM a un accès limité aux informations relatives à une fraction des nœuds, et obtient également l’accès pour agir sur eux de manière séquentielle.Ce dernier aspect séquentiel dans le processus de décision offre une perspective com- plètement nouvelle au contrôle du processus de diffusion dynamique, ce qui fait de ce travail le premier à présen- ter le problème du contrôle dynamique comme une série de processus de sélection séquentielleDans le cadre du problème de sélection séquentielle (SSP), des décisions immédiates et irrévocables doivent être prises par le décideur, tandis que les candidats ar- rivent dans un ordre aléatoire et sont examinés pour l’un des créneaux de sélection disponible. Pour les besoins du contrôle de la diffusion en réseau, ce que nous pro- posons se traduit par sélectionner les bons nœuds afin deleur allouer les ressources de contrôle dans un processus séquentiel à plusieurs itérations. Cependant, les vari- antes standard du SSP, comme le très connu problème de la secrétaire, commencent par un ensemble de sélec- tion vide (démarrage à froid) et effectuent le processus de sélection une fois sur un seul ensemble de candidats (unique itération). Ces deux limites sont abordées dans la présente thèse. Tout d’abord, nous introduisons un nouveau paramètre de démarrage à chaud qui considère avoir à portée de main un ensemble de référence, c’est-à- dire un ensemble d’éléments préalablement sélectionnés d’une qualité donnée. Le DM tente ensuite de mettre à jour de manière optimale cet ensemble tout en exam- inant la séquence de candidats qui arrivent, contraint par la possibilité de mettre à jour l’affectation à chaque créneau de sélection (ressource) au plus une fois. Le pro- cessus de sélection séquentielle aux multiples itérations, est alors introduit comme une extension naturelle de la sélection de démarrage à chaud.Des fonctions objectif basées sur le rang et le score de la sélection finale sont prises en compte. Une approche basée sur la séparation de la séquence en deux phases est proposée pour la première, tandis que la stratégie optimale basée sur le calcul d’un seuil d’acceptation dy- namique est dérivée pour la seconde en supposant que la distribution des scores est connue. Ces stratégies sont ensuite mises en comparaison pour leur efficacité dans le cadre de la sélection traditionnelle ainsi que pour la résolution des problèmes de contrôle sur réseaux qui ont motivé cette thèse. La généralité des modèles introduits permet leur application à une grande variété de domaines et de problèmes. par exemple, les processus de recrute- ment récurrents, la gestion de ressources (par exemple, lits, personnel) dans les unités de soins de santé, ainsi que la résolution de problèmes combinatoires difficiles sous contraintes, comme le problème de b-diversification que l’on trouve dans les applications de traitement de flux de données (entre autres, en robotique).
  • Modèles épidémiques pour des politiques personnalisées d'isolement et de sortie du COVID-19 à l'aide de prédictions du risque clinique.

    Theodoros EVGENIOU, Mathilde FEKOM, Anton OVCHINNIKOV, Raphael PORCHER, Camille POUCHOL, Nicolas VAYATIS
    SSRN Electronic Journal | 2020
    À la mi-avril 2020, alors que plus de 2,5 milliards de personnes dans le monde suivent des mesures d'éloignement social en raison du COVID-19, les gouvernements envisagent d'assouplir l'isolement. Nous avons combiné les prévisions de risque clinique individuel avec la modélisation épidémique pour examiner les simulations de politiques d'isolement et de sortie. Méthodes : Nous avons développé une méthode pour inclure des prédictions de risque personnalisées dans les modèles épidémiques basés sur les principes de la science des données. Nous avons étendu un modèle standard susceptible-exposé-infecté-sortant (SEIR) pour tenir compte des prédictions de gravité, définies par le risque qu'un individu ait besoin de soins intensifs en cas d'infection. Nous avons étudié des exemples de politiques d'isolement à l'aide de simulations avec le modèle épidémique à risque étendu, en utilisant les données et les estimations de COVID-19 en France à la mi-avril 2020 (4 000 patients en soins intensifs, environ 7 250 lits de soins intensifs au total occupés au pic de l'épidémie, 0,5 % des patients nécessitant des soins intensifs en cas d'infection). Nous avons considéré des scénarios variant dans la performance de discrimination d'un modèle de prédiction du risque, dans le degré de distanciation sociale et dans le taux de gravité de l'infection. Les intervalles de confiance ont été obtenus en utilisant une approche de calcul bayésien approximatif. Ce cadre peut être utilisé avec d'autres modèles épidémiques, avec d'autres prédictions de risque et pour d'autres épidémies.
  • Évaluation quantitative de la conscience pendant l'anesthésie sans données EEG.

    Clement DUBOST, Pierre HUMBERT, Laurent OUDRE, Christophe LABOURDETTE, Nicolas VAYATIS, Pierre paul VIDAL
    Journal of Clinical Monitoring and Computing | 2020
    Pas de résumé disponible.
  • Un article d'opinion sur le maintien de la robustesse : Vers une approche multimodale et intergénérationnelle utilisant les jumeaux numériques.

    Pierre paul VIDAL, Alienor VIENNE JUMEAU, Albane MOREAU, Catherine VIDAL, Danping WANG, Julien AUDIFFREN, Ioannis BARGIOTAS, Remi BARROIS, Stephane BUFFAT, Clement DUBOST, Jean michel GHIDAGLIA, Christophe LABOURDETTE, Juan MANTILLA, Laurent OUDRE, Flavien QUIJOUX, Matthieu ROBERT, Alain p YELNIK, Damien RICARD, Nicolas VAYATIS
    AGING MEDICINE | 2020
    Pas de résumé disponible.
  • Activations de faible rang pour le codage convolutionnel clair basé sur les tenseurs.

    Pierre HUMBERT, Julien AUDIFFREN, Laurent OUDRE, Nicolas VAYATIS
    ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) | 2020
    Pas de résumé disponible.
  • L'utilisation d'unités de mesure inertielle pour l'étude de l'évaluation de l'activité du milieu de vie libre : A Literature Review.

    Sylvain JUNG, Mona MICHAUD, Laurent OUDRE, Eric DORVEAUX, Louis GORINTIN, Nicolas VAYATIS, Damien RICARD
    Sensors | 2020
    Pas de résumé disponible.
  • Analyse multivariée avec tenseurs et graphes - application aux neurosciences.

    Pierre HUMBERT, Nicolas VAYATIS, Laurent OUDRE, Julien AUDIFFREN, Remi GRIBONVAL, Cedric RICHARD, Dimitri VAN DE VILLE, Alexandre GRAMFORT, Stephanie ALLASSONNIERE, Cedric RICHARD, Dimitri VAN DE VILLE
    2020
    Comment extraire l’information contenue dans des données multivariées est devenue une question fondamentale ces dernières années. En effet, leur disponibilité croissante a mis en évidence les limites des modèles standards et la nécessité d’évoluer vers des méthodes plus polyvalentes. L’objectif principal de cette thèse est de fournir des méthodes et des algorithmes prenant en compte la structure des signaux multivariés. Des exemples bien connus de tels signaux sont les images, les signaux audios stéréo, et les signaux d’électroencéphalographie multicanaux. Parmi les approches existantes, nous nous concentrons spécifiquement sur celles basées sur la structure induite par les graphes ou les tenseurs qui ont déjà attiré une attention croissante en raison de leur capacité à mieux exploiter l’aspect multivarié des données et leur structure sous-jacente. Bien que cette thèse prenne l’étude de l’anesthésie générale comme contexte applicatif privilégié, les méthodes développées sont adaptées à un large spectre de données structurées multivariées.
  • Examen sélectif des méthodes de détection des points de changement hors ligne.

    Charles TRUONG, Laurent OUDRE, Nicolas VAYATIS
    Signal Processing | 2020
    Pas de résumé disponible.
  • Test d'hypothèse à deux échantillons multivariés par maximisation de l'AUC pour les applications biomédicales.

    Ioannis BARGIOTAS, Argyris KALOGERATOS, Myrto LIMNIOS, Pierre paul VIDAL, Damien RICARD, Nicolas VAYATIS
    11th Hellenic Conference on Artificial Intelligence | 2020
    Pas de résumé disponible.
  • Modèles épidémiques pour des politiques personnalisées d'isolement et de sortie du COVID-19 à l'aide de prédictions du risque clinique.

    Theodoros EVGENIOU, Mathilde FEKOM, Anton OVCHINNIKOV, Raphael PORCHER, Camille POUCHOL, Nicolas VAYATIS
    2020
    À la mi-avril 2020, alors que plus de 2,5 milliards de personnes dans le monde suivent des mesures d'éloignement social en raison du COVID-19, les gouvernements envisagent d'assouplir l'isolement. Nous avons combiné les prévisions de risque clinique individuel avec la modélisation épidémique pour examiner les simulations de politiques d'isolement et de sortie. Méthodes : Nous avons développé une méthode pour inclure les prédictions de risque personnalisées dans les modèles épidémiques basés sur les principes de la science des données. Nous avons étendu un modèle standard susceptible-exposé-infecté-sortant (SEIR) pour tenir compte des prédictions de gravité, définies par le risque qu'un individu ait besoin de soins intensifs en cas d'infection. Nous avons étudié des exemples de politiques d'isolement à l'aide de simulations avec le modèle épidémique à risque étendu, en utilisant les données et les estimations de COVID-19 en France à la mi-avril 2020 (4 000 patients en soins intensifs, environ 7 250 lits de soins intensifs au total occupés au pic de l'épidémie, 0,5 % des patients nécessitant des soins intensifs en cas d'infection). Nous avons considéré des scénarios variant dans la performance de discrimination d'un modèle de prédiction du risque, dans le degré de distanciation sociale et dans le taux de gravité de l'infection. Les intervalles de confiance ont été obtenus en utilisant une approche de calcul bayésien approximatif. Ce cadre peut être utilisé avec d'autres modèles épidémiques, avec d'autres prédictions de risque et pour d'autres épidémies.
  • Adaptation de domaine multi-source non supervisée pour la régression.

    Guillaume RICHARD, Antoine DE MATHELIN, Georges HEBRAIL, Mathilde MOUGEOT, Nicolas VAYATIS
    2020
    Nous considérons le problème de l'adaptation non supervisée du domaine à partir de sources multiples dans un contexte de régression. Nous proposons dans ce travail une méthode originale pour tirer profit de différentes sources en utilisant une combinaison pondérée des sources. Dans ce but, nous définissons une nouvelle mesure de similarité entre les probabilités pour l'adaptation de domaine que nous appelons hypothesis-discrepancy. Nous prouvons ensuite une nouvelle limite pour l'adaptation de domaine non supervisée combinant plusieurs sources. Nous dérivons de cette limite un nouvel algorithme d'adaptation de domaine contradictoire qui ajuste les poids donnés à chaque source, en s'assurant que les sources liées à la cible reçoivent des poids plus élevés. Enfin, nous évaluons notre méthode sur différents ensembles de données publiques et la comparons à d'autres bases d'adaptation de domaine pour démontrer l'amélioration pour les tâches de régression.
  • Pondération adversariale pour l'adaptation au domaine dans la régression.

    Antoine DE MATHELIN, Guillaume RICHARD, Mathilde MOUGEOT, Nicolas VAYATIS
    2020
    Nous présentons une nouvelle approche basée sur les instances pour traiter les tâches de régression dans le contexte de l'adaptation supervisée au domaine. L'approche développée dans cet article repose sur l'hypothèse que la tâche sur le domaine cible peut être apprise efficacement en repondérant de manière adéquate les instances sources pendant la phase de formation. Nous introduisons une nouvelle formulation de l'objectif d'optimisation pour l'adaptation de domaine qui repose sur une distance de divergence caractérisant la différence entre les domaines selon une tâche spécifique et une classe d'hypothèses. Pour résoudre ce problème, nous développons un algorithme de réseau contradictoire qui apprend à la fois le schéma de pondération de la source et la tâche en une seule descente de gradient vers l'avant. Nous fournissons des preuves numériques de la pertinence de la méthode sur des ensembles de données publiques pour l'adaptation des domaines grâce à des expériences reproductibles accessibles via une interface de démonstration en ligne.
  • Estimation robuste de la densité du noyau avec le principe de la médiane des moyennes.

    Pierre HUMBERT, Batiste LE BARS, Ludovic MINVIELLE, Nicolas VAYATIS
    2020
    Dans cet article, nous introduisons un estimateur de densité non paramétrique robuste combinant la méthode populaire d'estimation de la densité par le noyau et le principe de la médiane des moyennes (MoM-KDE). Nous montrons que cet estimateur est robuste à tout type de données anormales, même dans le cas d'une contamination adverse. En particulier, alors que les travaux précédents ne prouvent les résultats de cohérence que dans le cadre d'un modèle de contamination connu, ce travail fournit des limites d'erreur à haute probabilité à échantillon fini sans connaissance a priori des valeurs aberrantes. Enfin, en comparaison avec d'autres estimateurs robustes à noyau, nous montrons que MoM-KDE obtient des résultats compétitifs tout en ayant une complexité de calcul nettement inférieure.
  • Classification d'événements à partir de capteurs sols - Application au suivi de personnes fragiles.

    Ludovic MINVIELLE, Nicolas VAYATIS, Mathilde MOUGEOT, Bernadette DORIZZI, Amaury HABRARD, Francois CHARPILLET, Miguel COLOM, Amaury HABRARD, Francois CHARPILLET
    2020
    Cette thèse porte sur la détection d'événements dans des signaux issus de capteurs sols pour le suivi des personnes âgées. Au vu des questions pratiques, il semble en effet que les capteurs de pression situés au sol soient de bons candidats pour les activités de suivi, notamment la détection de chute. Les signaux à traiter étant complexes, il convient d’utiliser des modèles sophistiqués. Ainsi, afin de concevoir un détecteur de chutes, nous proposons une approche basée sur les forêts aléatoires, tout en répondant aux contraintes matérielles à l’aide d’une procédure de sélection des variables. Les performances sont améliorées à l’aide d’une méthode d’augmentation des données ainsi qu’à l'agrégation temporelle des réponses du modèle. Nous abordons ensuite la question de la confrontation de notre modèle au monde réel, avec des méthodes d'apprentissage par transfert qui agissent sur le modèle de base des forêts aléatoires, c'est-à-dire les arbres de décision. Ces méthodes sont des adaptations de travaux antérieurs aux nôtres et sont conçues pour aborder le problème de déséquilibre des classes, la chute étant un événement rare. Nous les testons sur plusieurs ensembles de données, montrant ainsi des résultats encourageants pour la suite, et une implémentation Python est mise à disposition. Enfin, motivés par la question du suivi des personnes âgées tout en traitant un signal unidimensionnel pour une grande zone, nous proposons de distinguer les personnes âgées des individus plus jeunes grâce à un modèle de réseau de neurones convolutifs et un apprentissage de dictionnaire. Les signaux à traiter étant principalement constitués de marches, la première brique du modèle est entraînée pour se focaliser sur les pas dans les signaux, et la seconde partie du modèle est entraînée séparément sur la tâche finale. Cette nouvelle approche de la classification de la marche permet de reconnaître avec efficacité les signaux issus de personnes âgées.
  • Modélisation hybride pour la prédiction de la durée de vie.

    Fikri HAFID, Maxime GUEGUIN, Vincent LAURENT, Mathilde MOUGEOT, Nicolas VAYATIS, Christine YANG, Jean michel GHIDAGLIA
    Lecture Notes in Mechanical Engineering | 2020
    Pas de résumé disponible.
  • Modèles épidémiques pour des politiques personnalisées d'isolement et de sortie du COVID-19 à l'aide de prédictions du risque clinique.

    Theodoros EVGENIOU, Mathilde FEKOM, Anton OVCHINNIKOV, Raphael PORCHER, Camille POUCHOL, Nicolas VAYATIS
    2020
    À la mi-avril 2020, alors que plus de 2,5 milliards de personnes dans le monde suivent des mesures d'éloignement social en raison du COVID-19, les gouvernements envisagent d'assouplir l'isolement. Nous avons combiné les prévisions de risque clinique individuel avec la modélisation épidémique pour examiner les simulations de politiques d'isolement et de sortie. Méthodes : Nous avons développé une méthode pour inclure les prédictions de risque personnalisées dans les modèles épidémiques basés sur les principes de la science des données. Nous avons étendu un modèle standard susceptible-exposé-infecté-sortant (SEIR) pour tenir compte des prédictions de gravité, définies par le risque qu'un individu ait besoin de soins intensifs en cas d'infection. Nous avons étudié des exemples de politiques d'isolement à l'aide de simulations avec le modèle épidémique à risque étendu, en utilisant les données et les estimations de COVID-19 en France à la mi-avril 2020 (4 000 patients en soins intensifs, environ 7 250 lits de soins intensifs au total occupés au pic de l'épidémie, 0,5 % des patients nécessitant des soins intensifs en cas d'infection). Nous avons considéré des scénarios variant dans la performance de discrimination d'un modèle de prédiction du risque, dans le degré de distanciation sociale et dans le taux de gravité de l'infection. Les intervalles de confiance ont été obtenus en utilisant une approche de calcul bayésien approximatif. Ce cadre peut être utilisé avec d'autres modèles épidémiques, avec d'autres prédictions de risque et pour d'autres épidémies.
  • Détection des points de changement à l'aide d'un noyau gourmand.

    Laurent OUDRE, Nicolas VAYATIS, Charles TRUONG
    IEEE Transactions on Signal Processing | 2019
    Pas de résumé disponible.
  • Détection supervisée de points de changement par noyau avec annotations partielles.

    Charles TRUONG, Laurent OUDRE, Nicolas VAYATIS
    ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) | 2019
    Pas de résumé disponible.
  • Règle d'arrêt multiple optimale pour la sélection séquentielle à démarrage à chaud.

    Mathilde FEKOM, Nicolas VAYATIS, Argyris KALOGERATOS
    2019 IEEE 31st International Conference on Tools with Artificial Intelligence (ICTAI) | 2019
    Pas de résumé disponible.
  • Un ensemble de données pour l'étude de la locomotion humaine avec des unités de mesures inertielles.

    Thomas MOREAU, Clement PROVOST, Pierre paul VIDAL, Nicolas VAYATIS, Stephane BUFFAT, Alain YELNIK, Damien RICARD, Laurent OUDRE
    Image Processing On Line | 2019
    Pas de résumé disponible.
  • Effets de la stimulation bilatérale du noyau subthalamique dans la maladie de Parkinson avec et sans trouble du comportement en sommeil paradoxal.

    Panagiotis BARGIOTAS, Ines DEBOVE, Ioannis BARGIOTAS, Martin lenard LACHENMAYER, Maria NTAFOULI, Nicolas VAYATIS, Michael wm SCHUPBACH, Paul KRACK, Claudio l BASSETTI
    Journal of Neurology, Neurosurgery & Psychiatry | 2019
    Pas de résumé disponible.
  • Les troubles de l'équilibre chez les patients atteints de leucoencéphalopathie radio-induite sont couplés à une altération de l'attention visuelle dans des tâches naturelles.

    Ioannis BARGIOTAS, Albane MOREAU, Alienor VIENNE, Flavie BOMPAIRE, Marie BARUTEAU, Marie DE LAAGE, Mateo CAMPOS, Dimitri PSIMARAS, Nicolas VAYATIS, Christophe LABOURDETTE, Pierre paul VIDAL, Damien RICARD, Stephane BUFFAT
    Frontiers in Neurology | 2019
    Pas de résumé disponible.
  • Sélection du meilleur canal d'électroencéphalogramme pour prédire la profondeur de l'anesthésie.

    Clement DUBOST, Pierre HUMBERT, Arno BENIZRI, Jean pierre TOURTIER, Nicolas VAYATIS, Pierre paul VIDAL
    Frontiers in Computational Neuroscience | 2019
    Pas de résumé disponible.
  • Le rôle complémentaire du contexte d'activité dans l'évaluation de la charge mentale des pilotes d'hélicoptère : Une approche d'apprentissage multi-tâches.

    Ioannis BARGIOTAS, Alice NICOLAI, Pierre paul VIDAL, Christophe LABOURDETTE, Nicolas VAYATIS, Stephane BUFFAT
    Human Mental Workload: Models and Applications | 2019
    Pas de résumé disponible.
  • Codage convolutif multivarié clair avec tenseur de faible rang.

    Pierre HUMBERT, Julien AUDIFFREN, Laurent OUDRE, Nicolas VAYATIS
    2019
    Cet article présente un nouveau codage clairsemé convolutif multivarié basé sur l'algèbre tensorielle avec un modèle général imposant à la fois la sparsité par élément et la faible raréfaction des tenseurs d'activations. En utilisant la décomposition CP, ce modèle réalise un codage significativement plus efficace du signal multivarié, en particulier dans le cas d'un ordre/dimension élevé, ce qui se traduit par de meilleures performances. Nous prouvons que notre modèle est étroitement lié au problème de la régression tensorielle de Kruskal, ce qui offre des garanties théoriques intéressantes pour notre cadre. En outre, nous fournissons un algorithme d'optimisation efficace basé sur l'optimisation alternée pour résoudre ce modèle. Enfin, nous évaluons notre algorithme à l'aide d'un large éventail d'expériences, mettant en évidence ses avantages et ses limites.
  • Allocation dynamique séquentielle des ressources pour le contrôle des épidémies.

    Mathilde FEKOM, Nicolas VAYATIS, Argyris KALOGERATOS
    2019 IEEE 58th Conference on Decision and Control (CDC) | 2019
    Pas de résumé disponible.
  • Limites spectrales dans les graphes aléatoires appliquées aux phénomènes de propagation et à la percolation.

    Remi LEMONNIER, Kevin SCAMAN, Nicolas VAYATIS
    Advances in Applied Probability | 2018
    Pas de résumé disponible.
  • Détection de pas basée sur des modèles avec des unités de mesure inertielles.

    Laurent OUDRE, Remi BARROIS MULLER, Thomas MOREAU, Charles TRUONG, Alienor VIENNE JUMEAU, Damien RICARD, Nicolas VAYATIS, Pierre paul VIDAL
    Sensors | 2018
    Pas de résumé disponible.
  • Sur l'importance de la dynamique locale dans le statokinésigramme : Une approche multivariée pour l'évaluation du contrôle postural chez les personnes âgées.

    Ioannis BARGIOTAS, Julien AUDIFFREN, Nicolas VAYATIS, Pierre paul VIDAL, Stephane BUFFAT, Alain p YELNIK, Damien RICARD
    PLOS ONE | 2018
    Pas de résumé disponible.
  • Représentations pour la détection d’anomalies : Application aux données vibratoires des moteurs d’avions.

    Mina ABDEL SAYED, Gilles FAY, Mathilde MOUGEOT, Nicolas VAYATIS, Mohamed EL BADAOUI, Jerome LACAILLE, Younes BENNANI, Nadine MARTIN
    2018
    Les mesures de vibrations sont l’une des données les plus pertinentes pour détecter des anomalies sur les moteurs. Les vibrations sont acquises sur banc d’essai en phase d’accélération et de décélération pour assurer la fiabilité du moteur à la sortie de la chaine de production. Ces données temporelles sont converties en spectrogrammes pour permettre aux experts d’effectuer une analyse visuelle de ces données et de détecter les différentes signatures atypiques. Les sources vibratoires correspondent à des raies sur les spectrogrammes. Dans cette thèse, nous avons mis en place un outil d’aide à la décision automatique pour analyser les spectrogrammes et détecter tout type de signatures atypiques, ces signatures ne proviennent pas nécessairement d’un endommagement du moteur. En premier lieu, nous avons construit une base de données numérique de spectrogrammes annotés. Il est important de noter que les signatures inusuelles sont variables en forme, intensité et position et se trouvent dans un faible nombre de données. Par conséquent, pour détecter ces signatures, nous caractérisons les comportements normaux des spectrogrammes, de manière analogue aux méthodes de détection de nouveautés, en représentant les patchs des spectrogrammes sur des dictionnaires comme les curvelets et la Non-negative matrix factorization (NMF), ainsi qu’en estimant la distribution de chaque point du spectrogramme à partir de données normales dépendamment ou non de leur voisinage. La détection des points atypiques est réalisée par comparaison des données tests au modèle de normalité estimé sur des données d’apprentissage normales. La détection des points atypiques permet la détection des signatures inusuelles composées par ces points.
  • Diffusion de l'information et propagation des rumeurs.

    Argyris KALOGERATOS, Kevin SCAMAN, Luca CORINZIA, Nicolas VAYATIS
    Cooperative and Graph Signal Processing | 2018
    Pas de résumé disponible.
  • Quelques contributions à l'optimisation globale.

    Cedric MALHERBE, Nicolas VAYATIS, Alexandre b. TSYBAKOV, Nicolas VAYATIS, Alexandre b. TSYBAKOV, Gilles BLANCHARD, Jean philippe VERT, Remi MUNOS, Olivier TEYTAUD, Gilles BLANCHARD, Jean philippe VERT
    2017
    Ce travail de thèse s’intéresse au problème d’optimisation séquentielle d’une fonction inconnue définie sur un ensemble continu et borné. Ce type de problème apparaît notamment dans la conception de systèmes complexes, lorsque l’on cherche à optimiser le résultat de simulations numériques ou plus simplement lorsque la fonction que l’on souhaite optimiser ne présente aucune forme de régularité évidente comme la linéarité ou la convexité. Dans un premier temps, nous nous focalisons sur le cas particulier des fonctions lipschitziennes. Nous introduisons deux nouvelles stratégies ayant pour but d’optimiser n’importe quelle fonction de coefficient de Lipschitz connu puis inconnu. Ensuite, en introduisant différentes mesures de régularité, nous formulons et obtenons des résultats de consistance pour ces méthodes ainsi que des vitesses de convergence sur leurs erreurs d’approximation. Dans une seconde partie, nous nous proposons d’explorer le domaine de l’ordonnancement binaire dans le but de développer des stratégies d’optimisation pour fonctions non régulières. En observant que l’apprentissage de la règle d’ordonnancement induite par la fonction inconnue permet l’identification systématique de son optimum, nous faisons le lien entre théorie de l’ordonnancement et théorie de l’optimisation, ce qui nous permet de développer de nouvelles méthodes reposant sur le choix de n’importe quelle technique d’ordonnancement et de formuler différents résultats de convergence pour l’optimisation de fonctions non régulières. Enfin, les stratégies d’optimisation développées au cours de la thèse sont comparées aux méthodes présentes dans l’état de l’art sur des problèmes de calibration de systèmes d’apprentissages ainsi que sur des problèmes synthétiques fréquemment rencontrés dans le domaine de l’optimisation globale.
  • Représentations Convolutives Parcimonieuses -- application aux signaux physiologiques et interpétabilité de l'apprentissage profond.

    Thomas MOREAU, Nicolas VAYATIS, Laurent OUDRE, Stephanie ALLASSONNIERE, Nicolas VAYATIS, Laurent OUDRE, Stephanie ALLASSONNIERE, Julien MAIRAL, Stephane MALLAT, Rene VIDAL, Alexandre GRAMFORT, Pierre paul VIDAL, Julien MAIRAL, Stephane MALLAT, Rene VIDAL
    2017
    Les représentations convolutives extraient des motifs récurrents qui aident à comprendre la structure locale dans un jeu de signaux. Elles sont adaptées pour l’analyse des signaux physiologiques, qui nécessite des visualisations mettant en avant les informations pertinentes. Ces représentations sont aussi liées aux modèles d’apprentissage profond. Dans ce manuscrit, nous décrivons des avancées algorithmiques et théoriques autour de ces modèles. Nous montrons d’abord que l’Analyse du Spectre Singulier permet de calculer efficacement une représentation convolutive. Cette représentation est dense et nous décrivons une procédure automatisée pour la rendre plus interprétable. Nous proposons ensuite un algorithme asynchrone, pour accélérer le codage parcimonieux convolutif. Notre algorithme présente une accélération super-linéaire. Dans une seconde partie, nous analysons les liens entre représentations et réseaux de neurones. Nous proposons une étape d’apprentissage supplémentaire, appelée post-entraînement, qui permet d’améliorer les performances du réseau entraîné, en s’assurant que la dernière couche soit optimale. Puis nous étudions les mécanismes qui rendent possible l’accélération du codage parcimonieux avec des réseaux de neurones. Nous montrons que cela est lié à une factorisation de la matrice de Gram du dictionnaire. Finalement, nous illustrons l’intérêt de l’utilisation des représentations convolutives pour les signaux physiologiques. L’apprentissage de dictionnaire convolutif est utilisé pour résumer des signaux de marche et le mouvement du regard est soustrait de signaux oculométriques avec l’Analyse du Spectre Singulier.
  • Détection des chutes à l'aide d'un capteur de sol intelligent et d'un apprentissage supervisé.

    Ludovic MINVIELLE, Mounir ATIQ, Renan SERRA, Mathilde MOUGEOT, Nicolas VAYATIS
    2017 39th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC) | 2017
    Pas de résumé disponible.
  • Apprentissage statistique pour s?quences d??v?nements ? l?aide de processus ponctuels.

    Massil ACHAB, Emmanuel BACRY, St?phane GA?FFAS, Nicolas VAYATIS, Emmanuel BACRY, St?phane GA?FFAS, Vincent RIVOIRARD, Manuel GOMEZ RODRIGUEZ, Nils richard HANSEN
    2017
    Le but de cette th?se est de montrer que l'arsenal des nouvelles m?thodes d'optimisation permet de r?soudre des probl?mes d'estimation difficile bas?s sur les mod?les d'?v?nements.Alors que le cadre classique de l'apprentissage supervis? traite les observations comme une collection de couples de covariables et de label, les mod?les d'?v?nements ne regardent que les temps d'arriv?e d'?v?nements et cherchent alors ? extraire de l'information sur la source de donn?e.Ces ?v?nements dat?s sont ordonn?s de fa?on chronologique et ne peuvent d?s lors ?tre consid?r?s comme ind?pendants.Ce simple fait justifie l'usage d'un outil math?matique particulier appel? processus ponctuel pour apprendre une certaine structure ? partir de ces ?v?nements.Deux exemples de processus ponctuels sont ?tudi?s dans cette th?se.Le premier est le processus ponctuel derri?re le mod?le de Cox ? risques proportionnels:son intensit? conditionnelle permet de d?finir le ratio de risque, une quantit? fondamentale dans la litt?rature de l'analyse de survie.Le mod?le de r?gression de Cox relie la dur?e avant l'apparition d'un ?v?nement, appel? d?faillance, aux covariables d'un individu.Ce mod?le peut ?tre reformul? ? l'aide du cadre des processus ponctuels.Le second est le processus de Hawkes qui mod?lise l'impact des ?v?nements pass?s sur la probabilit? d'apparition d'?v?nements futurs.Le cas multivari? permet d'encoder une notion de causalit? entre les diff?rentes dimensions consid?r?es.Cette th?se est divis?e en trois parties.La premi?re s'int?resse ? un nouvel algorithme d'optimisation que nous avons d?velopp?.Il permet d'estimer le vecteur de param?tre de la r?gression de Cox lorsque le nombre d'observations est tr?s important.Notre algorithme est bas? sur l'algorithme SVRG (Stochastic Variance Reduced Gradient) et utilise une m?thode MCMC (Monte Carlo Markov Chain) pour approcher un terme de la direction de descente.Nous avons prouv? des vitesses de convergence pour notre algorithme et avons montr? sa performance num?rique sur des jeux de donn?es simul?s et issus de monde r?el.La deuxi?me partie montre que la causalit? au sens de Hawkes peut ?tre estim?e de mani?re non-param?trique gr?ce aux cumulants int?gr?s du processus ponctuel multivari?.Nous avons d?velopper deux m?thodes d'estimation des int?grales des noyaux du processus de Hawkes, sans faire d'hypoth?se sur la forme de ces noyaux. Nos m?thodes sont plus rapides et plus robustes, vis-?-vis de la forme des noyaux, par rapport ? l'?tat de l'art. Nous avons d?montr? la consistence statistique de la premi?re m?thode, et avons montr? que la deuxi?me peut ?tre r?duite ? un probl?me d'optimisation convexe.La derni?re partie met en lumi?re les dynamiques de carnet d'ordre gr?ce ? la premi?re m?thode d'estimation non-param?trique introduite dans la partie pr?c?dente.Nous avons utilis? des donn?es du march? ? terme EUREX, d?fini de nouveaux mod?les de carnet d'ordre (bas?s sur les pr?c?dents travaux de Bacry et al.) et appliqu? la m?thode d'estimation sur ces processus ponctuels.Les r?sultats obtenus sont tr?s satisfaisants et coh?rents avec une analys? ?conom?trique.Un tel travail prouve que la m?thode que nous avons d?velopp? permet d'extraire une structure ? partir de donn?es aussi complexes que celles issues de la finance haute-fr?quence.
  • Méthodes numériques pour la recherche et la conception d’architectures optimales de boîtes de vitesses.

    Steven MASFARAUD, Nicolas VAYATIS, Florian de VUYST, Laurent FRIBOURG, Nicolas VAYATIS, Florian de VUYST, Laurent FRIBOURG, Eric FLORENTIN, Pierre VILLON, Fabrice DANES, Jean francois RAMEAU, Khy TAN, Eric FLORENTIN, Pierre VILLON
    2016
    La conception d’une boîte de vitesses impose le choix initial d’une architecture, solution de principe de l’objet à concevoir. Ce choix s’avère très structurant et a un impact très fort sur les critères de performance de la boîte de vitesse sans que l’ingénieur ait une visibilité claire sur cet impact. Une fois l’architecture choisie, il est possible par des techniques d’optimisation continue d’optimiser les critères de performance et le respect de contraintes vis-à-vis d’un cahier des charges. Ce genre d’optimisation a pour but de déterminer de manière optimale des dimensions structurantes de la boîte de vitesses comme par exemple les positions des axes de lignes d’arbres dans l’espace ou les diamètres des pignons. L’objectif de cette thèse est d’apporter des techniques scientifiques permettant de choisir l’architecture optimale vis-à-vis de ce cahier des charges. Le développement d’une telle méthode vise à obtenir des boîtes plus performantes, mais également de réduire les temps de développement d’ingénierie en s’assurant par des méthodes scientifiques du respect des contraintes exprimées dans le cahier des charges, et ce dès le choix de l’architecture, chose faite par essais-erreurs dans le cycle de conception habituel.
  • Prévision et optimisation des réseaux de convertisseurs d'énergie des vagues à l'aide d'une approche d'apprentissage automatique.

    Dripta SARKAR, Emile CONTAL, Nicolas VAYATIS, Frederic DIAS
    Renewable Energy | 2016
    Pas de résumé disponible.
  • Suppression des épidémies dans les réseaux à l'aide de la planification des priorités.

    Kevin SCAMAN, Argyris KALOGERATOS, Nicolas VAYATIS
    IEEE Transactions on Network Science and Engineering | 2016
    Pas de résumé disponible.
  • Une approche de notation non linéaire pour l'évaluation de l'équilibre : Classification des personnes âgées en tant que chuteurs et non-chuteurs.

    Julien AUDIFFREN, Ioannis BARGIOTAS, Nicolas VAYATIS, Pierre paul VIDAL, Damien RICARD
    PLOS ONE | 2016
    Près d'un tiers de la population âgée de 65 ans et plus est confrontée à au moins une chute par an. Une évaluation précise du risque de chute par des mesures simples et faciles à utiliser est une question importante dans la clinique actuelle. Une façon courante d'évaluer l'équilibre en posturographie consiste à enregistrer le déplacement du centre de pression (CoP) (statokinesigramme) à l'aide de plateformes de force. Une variété d'indices a été proposée pour différencier les chuteurs des non-chuteurs. Cependant, aucun accord n'a été trouvé pour savoir si ces analyses seules peuvent expliquer suffisamment les synergies complexes du contrôle postural. Dans ce travail, nous étudions les statokinésigrammes de 84 sujets âgés (80,3+- 6,4 ans), qui ne présentaient aucune déficience liée au contrôle de l'équilibre. Chaque sujet a été enregistré 25 secondes avec les yeux ouverts et 25 secondes avec les yeux fermés et des informations relatives à la présence de problèmes d'équilibre, tels que des chutes, au cours des six derniers mois, ont été recueillies. Cinq descripteurs des statokinésigrammes ont été calculés pour chaque enregistrement, et un algorithme Ranking Forest a été utilisé pour combiner ces caractéristiques afin d'évaluer l'équilibre de chaque sujet avec un score. Une approche classique de fractionnement train-test a été utilisée pour évaluer les performances de la méthode par une analyse ROC. L'analyse ROC a montré que la performance de chaque descripteur séparément était proche d'un classificateur aléatoire (AUC entre 0,49 et 0,54). En revanche, le score obtenu par notre méthode a atteint une AUC de 0,75 sur l'ensemble de test, cohérente sur plusieurs fractionnements train-test. Cette approche multidimensionnelle non linéaire semble appropriée pour évaluer un contrôle postural complexe.
  • Classement des anomalies dans un espace à haute dimension : L'algorithme non supervisé TreeRank.

    S. CLEMENCON, N. BASKIOTIS, N. VAYATIS
    Unsupervised Learning Algorithms | 2016
    Le classement de données non supervisées dans un espace de caractéristiques multivariées \(\mathcal{X} \subset \mathbb{R}^{d}\), d ≥ 1 par degré d'anomalie est d'une importance cruciale dans de nombreuses applications (par exemple, la surveillance de la fraude, la surveillance de systèmes/infrastructures complexes tels que les réseaux d'énergie ou les moteurs d'avion, la gestion des systèmes dans les centres de données). Cependant, l'aspect apprentissage du classement non supervisé n'a retenu l'attention de la communauté de l'apprentissage automatique que ces dernières années. La courbe Masse-Volume (MV) a été récemment introduite afin d'évaluer la performance de toute fonction de notation \(s : \mathcal{X} \rightarrow \mathbb{R}\) en ce qui concerne sa capacité à classer des données non étiquetées. On s'attend à ce que les fonctions de notation pertinentes induisent un préordre similaire à celui induit par la fonction de densité f(x) de la distribution de probabilité (supposée continue) de la population statistique étudiée. À notre connaissance, il n'existe pas d'algorithme efficace pour construire une fonction de notation à partir de données d'apprentissage (non étiquetées) avec une courbe MV quasi optimale lorsque la dimension d de l'espace des caractéristiques est élevée. L'objectif principal de ce chapitre est de présenter un tel algorithme que nous appelons l'algorithme Unsupervised TreeRank. Outre sa description et l'analyse statistique de ses performances, des expériences numériques sont présentées afin de fournir des preuves empiriques de sa précision.
  • Méthodes d’apprentissage statistique pour l’optimisation globale.

    Emile CONTAL, Nicolas VAYATIS, Pascal MASSART, Nicolas VAYATIS, Pascal MASSART, Josselin GARNIER, Andreas KRAUSE, Vianney PERCHET, Aurelien GARIVIER, Josselin GARNIER, Andreas KRAUSE
    2016
    Cette thèse se consacre à une analyse rigoureuse des algorithmes d'optimisation globale équentielle. On se place dans un modèle de bandits stochastiques où un agent vise à déterminer l'entrée d'un système optimisant un critère. Cette fonction cible n'est pas connue et l'agent effectue séquentiellement des requêtes pour évaluer sa valeur aux entrées qu'il choisit. Cette fonction peut ne pas être convexe et contenir un grand nombre d'optima locaux. Nous abordons le cas difficile où les évaluations sont coûteuses, ce qui exige de concevoir une sélection rigoureuse des requêtes. Nous considérons deux objectifs, d'une part l'optimisation de la somme des valeurs reçues à chaque itération, d'autre part l'optimisation de la meilleure valeur trouvée jusqu'à présent. Cette thèse s'inscrit dans le cadre de l'optimisation bayésienne lorsque la fonction est une réalisation d'un processus stochastique connu, et introduit également une nouvelle approche d'optimisation par ordonnancement où l'on effectue seulement des comparaisons des valeurs de la fonction. Nous proposons des algorithmes nouveaux et apportons des concepts théoriques pour obtenir des garanties de performance. Nous donnons une stratégie d'optimisation qui s'adapte à des observations reçues par batch et non individuellement. Une étude générique des supremums locaux de processus stochastiques nous permet d'analyser l'optimisation bayésienne sur des espaces de recherche nonparamétriques. Nous montrons également que notre approche s'étend à des processus naturels non gaussiens. Nous établissons des liens entre l'apprentissage actif et l'apprentissage statistique d'ordonnancements et déduisons un algorithme d'optimisation de fonctions potentiellement discontinue.
  • Application des processus stochastiques aux enchères en temps réel et à la propagation d'information dans les réseaux sociaux.

    Remi LEMONNIER, Nicolas VAYATIS, Nicolas VAYATIS, Manuel GOMEZ RODRIGUEZ, Florent KRZAKALA, Marc HOFFMANN, Emmanuel BACRY, Manuel GOMEZ RODRIGUEZ, Florent KRZAKALA, Marc HOFFMANN
    2016
    Dans cette thèse, nous étudions deux applications des processus stochastiques au marketing internet. Le premier chapitre s’intéresse au scoring d’internautes pour les enchères en temps réel. Ce problème consiste à trouver la probabilité qu’un internaute donné réalise une action d’intérêt, appelée conversion, dans les quelques jours suivant l’affichage d’une bannière publicitaire. Nous montrons que les processus de Hawkes constituent une modélisation naturelle de ce phénomène mais que les algorithmes de l’état de l’art ne sont pas applicables à la taille des données typiquement à l’œuvre dans des applications industrielles. Nous développons donc deux nouveaux algorithmes d’inférence non-paramétrique qui sont plusieurs ordres de grandeurs plus rapides que les méthodes précédentes. Nous montrons empiriquement que le premier a de meilleures performances que les compétiteurs de l’état de l’art, et que le second permet une application à des jeux de données encore plus importants sans payer un prix trop important en terme de pouvoir de prédiction. Les algorithmes qui en découlent ont été implémentés avec de très bonnes performances depuis plusieurs années à 1000 mercis, l’agence marketing d’avant-garde étant le partenaire industriel de cette thèse CIFRE, où ils sont devenus un actif important pour la production. Le deuxième chapitre s’intéresse aux processus diffusifs sur les graphes qui constituent un outil important pour modéliser la propagation d’une opération de marketing viral sur les réseaux sociaux. Nous établissons les premières bornes théoriques sur le nombre total de nœuds atteint par une contagion dans le cadre de graphes et dynamiques de diffusion quelconques, et montrons l’existence de deux régimes bien distincts : le régime sous-critique où au maximum $O(sqrt{n})$ nœuds seront infectés, où $n$ est la taille du réseau, et le régime sur-critique ou $O(n)$ nœuds peuvent être infectés. Nous étudions également le comportement par rapport au temps d’observation $T$ et mettons en lumière l’existence de temps critiques en-dessous desquels une diffusion, même sur-critique sur le long terme, se comporte de manière sous-critique. Enfin, nous étendons nos travaux à la percolation et l’épidémiologie, où nous améliorons les résultats existants.
  • Validation croisée et pénalisation pour l'estimation de densité.

    Nelo MAGALHAES, Lucien BIRGE, Pascal MASSART, Yannick BARAUD, Lucien BIRGE, Pascal MASSART, Yannick BARAUD, Vincent RIVOIRARD, Nicolas VAYATIS, Guillaume LECUE, Vincent RIVOIRARD, Nicolas VAYATIS
    2015
    Cette thèse s'inscrit dans le cadre de l'estimation d'une densité, considéré du point de vue non-paramétrique et non-asymptotique. Elle traite du problème de la sélection d'une méthode d'estimation à noyau. Celui-ci est une généralisation, entre autre, du problème de la sélection de modèle et de la sélection d'une fenêtre. Nous étudions des procédures classiques, par pénalisation et par rééchantillonnage (en particulier la validation croisée V-fold), qui évaluent la qualité d'une méthode en estimant son risque. Nous proposons, grâce à des inégalités de concentration, une méthode pour calibrer la pénalité de façon optimale pour sélectionner un estimateur linéaire et prouvons des inégalités d'oracle et des propriétés d'adaptation pour ces procédures. De plus, une nouvelle procédure rééchantillonnée, reposant sur la comparaison entre estimateurs par des tests robustes, est proposée comme alternative aux procédures basées sur le principe d'estimation sans biais du risque. Un second objectif est la comparaison de toutes ces procédures du point de vue théorique et l'analyse du rôle du paramètre V pour les pénalités V-fold. Nous validons les résultats théoriques par des études de simulations.
  • Un nouveau cadre pour la simulation des installations pétrolières offshore au niveau du système.

    Marc BONNISSEL, Joris COSTES, Jean michel GHIDAGLIA, Philippe MUGUERRA, Keld lund NIELSEN, Benjamin POIRSON, Xavier RIOU, Jean philippe SAUT, Nicolas VAYATIS
    Complex Systems Design & Management | 2015
    Les installations pétrolières offshore sont des systèmes industriels complexes : Elles sont composées de nombreux éléments et font intervenir à la fois une physique élaborée et des aspects stochastiques tels que le risque de défaillance ou la variation des prix. Plusieurs outils logiciels sont disponibles pour simuler les composants individuels des installations offshore, par exemple pour calculer la dynamique de l'écoulement dans un dispositif particulier. Il n'existe cependant aucun outil permettant de simuler l'installation au niveau du système, c'est-à-dire de simuler le comportement général de l'installation. L'article présente un cadre pour un tel simulateur au niveau système, qui comprend une couche pour la physique et une autre pour la simulation des risques. La partie physique utilise le langage Modelica [1] basé sur les équations. Des composants Modelica sont définis pour modéliser les dispositifs typiques d'une installation. La simulation de risque utilise des chaînes de Markov et des indicateurs statistiques pour évaluer la performance et la résilience du système. Elle fonctionne avec un langage externe (C ou Scilab) et les données de la simulation Modelica.
  • Une approche d'apprentissage automatique pour l'analyse des convertisseurs d'énergie des vagues.

    Dripta SARKAR, Emile CONTAL, Nicolas VAYATIS, Frederic DIAS
    Volume 9: Ocean Renewable Energy | 2015
    L'analyse hydrodynamique et l'estimation de la performance des convertisseurs d'énergie des vagues (WEC) sont généralement réalisées à l'aide de modèles semi-analytiques/numériques. Les codes commerciaux d'éléments de frontière sont largement utilisés pour analyser les interactions dans les réseaux comprenant des dispositifs de conversion de l'énergie des vagues. Cependant, l'analyse d'un réseau de tels convertisseurs devient coûteuse en termes de calcul, et le temps de calcul augmente avec le nombre de dispositifs dans le système. Ainsi, la détermination de la disposition optimale des WECs dans les réseaux devient extrêmement difficile. Dans cette étude, une approche expérimentale active innovante est présentée pour prédire le comportement des WECs dans les réseaux. Les variables d'entrée sont les coordonnées du centre des convertisseurs d'énergie des vagues. Des simulations pour des exemples d'entraînement et de validation sont effectuées pour un réseau de convertisseurs d'énergie houlomotrice oscillants, en utilisant le modèle mathématique de Sarkar et al. (Proc. R. Soc. A, 2014). Dans le cadre des premières conclusions, des résultats seront présentés sur la performance des convertisseurs d'énergie des vagues situés bien à l'intérieur d'un réseau. Le champ d'application/objectif plus large de cette recherche serait de prédire le comportement des dispositifs individuels et la performance globale du réseau pour des dispositions arbitraires du système, puis d'identifier les dispositions optimales soumises à diverses contraintes.Copyright © 2015 par ASME.
  • Une approche mathématique de l'investissement boursier.

    Marouane ANANE, Frederic ABERGEL, Eric MOULINES, Frederic ABERGEL, Nicolas VAYATIS, Anirban CHAKRABORTI, Charles albert LEHALLE, Damien CHALLET, Nicolas VAYATIS, Anirban CHAKRABORTI
    2015
    Le but de cette thèse est de répondre au vrai besoin de prédire les fluctuations futures des prix d'actions. En effet, l'aléatoire régissant ces fluctuations constitue pour des acteurs de la finance, tels que les Market Maker, une des plus grandes sources de risque. Tout au long de cette étude, nous mettons en évidence la possibilité de réduire l'incertitude sur les prix futurs par l'usage des modèles mathématiques appropriés. Cette étude est rendue possible grâce à une grande base de données financières et une puissante grille de calcul mises à notre disposition par l'équipe Automatic Market Making de BNP Paribas. Dans ce document, nous présentons uniquement les résultats de la recherche concernant le trading haute fréquence. Les résultats concernant la partie basse fréquence présentent un intérêt scientifique moindre pour le monde académique et rentrent par ailleurs dans le cadre des résultats confidentiels. Ces résultats seront donc volontairement omis.Dans le premier chapitre, nous présentons le contexte et les objectifs de cette étude. Nous présentons, également, les différentes méthodes utilisées, ainsi que les principaux résultats obtenus. Dans le chapitre 2, nous nous intéressons à l'apport de la supériorité technologique en trading haute fréquence. Dans ce but, nous simulons un trader ultra rapide, omniscient, et agressif, puis nous calculons son gain total sur 3 ans. Les gains obtenus sont très modestes et reflètent l'apport limité de la technologie en trading haute fréquence. Ce résultat souligne l'intérêt primordial de la recherche et de la modélisation dans ce domaine.Dans le chapitre 3, nous étudions la prédictibilité des prix à partir des indicateurs de carnet d'ordre. Nous présentons, à l'aide des espérances conditionnelles, des preuves empiriques de dépendances statistiques entre les prix et les différents indicateurs. L'importance de ces dépendances résulte de la simplicité de la méthode, éliminant tout risque de surapprentissage des données. Nous nous intéressons, ensuite, à la combinaison des différents indicateurs par une régression linéaire et nous analysons les différents problèmes numériques et statistiques liés à cette méthode. Enfin, nous concluons que les prix sont prédictibles pour un horizon de quelques minutes et nous mettons en question l'hypothèse de l'efficience du marché.Dans le chapitre 4, nous nous intéressons au mécanisme de formation du prix à partir des arrivés des évènements dans le carnet d'ordre. Nous classifions les ordres en douze types dont nous analysons les propriétés statistiques. Nous étudions par la suite les dépendances entre ces différents types d'ordres et nous proposons un modèle de carnet d'ordre en ligne avec les observations empiriques. Enfin, nous utilisons ce modèle pour prédire les prix et nous appuyons l'hypothèse de la non-efficience des marchés, suggérée au chapitre 3.
  • EpiBrainRad : une étude épidémiologique de la neurotoxicité induite par la radiothérapie chez les patients atteints de gliome de haut grade.

    Thomas DURAND, Sophie JACOB, Laura LEBOUIL, Hassen DOUZANE, Philippe LESTAEVEL, Amithys RAHIMIAN, Dimitri PSIMARAS, Loic FEUVRET, Delphine LECLERCQ, Bruno BROCHET, Radia TAMARAT, Fabien MILLIAT, Marc BENDERITTER, Nicolas VAYATIS, Georges NOEL, Khe HOANG XUAN, Jean yves DELATTRE, Damien RICARD, Marie odile BERNIER
    BMC Neurology | 2015
    Contexte La radiothérapie est l'un des traitements les plus importants des tumeurs cérébrales primaires et métastatiques. Malheureusement, elle peut entraîner des complications modérées à sévères parmi lesquelles la leucoencéphalopathie est très fréquente et implique des déficits cognitifs tels que des dysfonctionnements de la mémoire, de l'attention et des fonctions exécutives. Cependant, l'incidence de cette complication n'est pas bien établie et les facteurs de risque et le processus sont mal compris. L'objectif principal de cette étude est d'améliorer les connaissances sur la leucoencéphalopathie radio-induite en se basant sur des approches pluridisciplinaires combinant des investigations cognitives, biologiques, imagerie et dosimétriques. Méthode/Design L'étude EpiBrainRad est une étude de cohorte prospective incluant des patients atteints de gliomes de haut grade nouvellement diagnostiqués et traités par radiothérapie et chimiothérapie concomitante-adjuvante au témozolomide. Les patients sont inclus entre leur chirurgie et le premier jour de radio-chimiothérapie, et le suivi dure 3 ans après le traitement. Des évaluations du fonctionnement cognitif, des mesures de biomarqueurs sanguins spécifiques et une imagerie par résonance magnétique sont réalisées à différents moments du suivi, ainsi qu'une évaluation dosimétrique spécifique des organes impliqués dans les champs de rayonnement. Premièrement, le taux d'incidence de la leucoencéphalopathie sera estimé dans cette population. Ensuite, les corrélations entre les troubles cognitifs et la dosimétrie, les gammes de biomarqueurs et les anomalies sur l'imagerie seront analysées afin de mieux comprendre l'apparition et l'évolution du déclin cognitif associé à la radiothérapie. De plus, un nouveau test cognitif, rapide et facile à réaliser, sera étudié pour déterminer sa sensibilité à détecter le décrément de la leucoencéphalopathie. Discussion Avec une approche multidisciplinaire originale, l'étude EpiBrainRad vise à améliorer les connaissances sur la leucoencéphalopathie radio-induite afin d'en améliorer le diagnostic précoce et la prévention. Le principal défi est de préserver la qualité de vie après les traitements anticancéreux, ce qui implique d'étudier l'incidence des complications radio-induites et les facteurs de risque associés. Enregistrement de l'essai NCT02544178 © 2015 Durand et al.
  • Cohérence forte de l'estimateur bayésien pour le processus Ornstein-Uhlenbeck.

    Arturo KOHATSU HIGA, Nicolas VAYATIS, Kazuhiro YASUDA
    Inspired by Finance | 2014
    Dans l'article d'accompagnement Kohatsu-Higa et al. (soumis, 2013), nous avons effectué une étude théorique de la cohérence d'une méthode d'estimation des paramètres de modèles markoviens nécessitant beaucoup de calcul. Cette méthode pourrait être considérée comme une méthode d'estimation bayésienne approximative ou un problème de filtrage approximé par des méthodes particulaires. Nous avons montré dans Kohatsu-Higa (soumis, 2013) que sous certaines conditions, qui concernent explicitement le nombre de données, la quantité de simulations et la taille de la fenêtre du noyau, on obtient le taux de convergence de la méthode. Dans cette première étude, les conditions ne semblent pas faciles à vérifier et pour cette raison, nous montrons dans cet article comment vérifier ces conditions dans l'exemple jouet des processus d'Ornstein-Uhlenbeck. Nous espérons que cet article aidera le lecteur à comprendre le contexte théorique de nos études précédentes et comment interpréter les hypothèses requises.
  • Forêts uniformément aléatoires et détection des irrégularités aux cotisations sociales.

    Saip CISS, Patrice BERTAIL, Pierre PICARD, Gerard BIAU, Patrice BERTAIL, Pierre PICARD, Gerard BIAU, Fabrice ROSSI, Nicolas VAYATIS, Jean PINQUET, Vincent RAVOUX, Fabrice ROSSI, Nicolas VAYATIS
    2014
    Nous présentons dans cette thèse une application de l'apprentissage statistique à la détection des irrégularités aux cotisations sociales. L'apprentissage statistique a pour but de modéliser des problèmes dans lesquels il existe une relation, généralement non déterministe, entre des variables et le phénomène que l'on cherche à évaluer. Un aspect essentiel de cette modélisation est la prédiction des occurrences inconnues du phénomène, à partir des données déjà observées. Dans le cas des cotisations sociales, la représentation du problème s'exprime par le postulat de l'existence d'une relation entre les déclarations de cotisation des entreprises et les contrôles effectués par les organismes de recouvrement. Les inspecteurs du contrôle certifient le caractère exact ou inexact d'un certain nombre de déclarations et notifient, le cas échéant, un redressement aux entreprises concernées. L'algorithme d'apprentissage "apprend", grâce à un modèle, la relation entre les déclarations et les résultats des contrôles, puis produit une évaluation de l'ensemble des déclarations non encore contrôlées. La première partie de l'évaluation attribue un caractère régulier ou irrégulier à chaque déclaration, avec une certaine probabilité. La seconde estime les montants de redressement espérés pour chaque déclaration. Au sein de l'URSSAF (Union de Recouvrement des cotisations de Sécurité sociale et d'Allocations Familiales) d'Île-de-France, et dans le cadre d'un contrat CIFRE (Conventions Industrielles de Formation par la Recherche), nous avons développé un modèle de détection des irrégularités aux cotisations sociales que nous présentons et détaillons tout au long de la thèse. L'algorithme fonctionne sous le logiciel libre R. Il est entièrement opérationnel et a été expérimenté en situation réelle durant l'année 2012. Pour garantir ses propriétés et résultats, des outils probabilistes et statistiques sont nécessaires et nous discutons des aspects théoriques ayant accompagné sa conception. Dans la première partie de la thèse, nous effectuons une présentation générale du problème de la détection des irrégularités aux cotisations sociales. Dans la seconde, nous abordons la détection spécifiquement, à travers les données utilisées pour définir et évaluer les irrégularités. En particulier, les seules données disponibles suffisent à modéliser la détection. Nous y présentons également un nouvel algorithme de forêts aléatoires, nommé "forêt uniformément aléatoire", qui constitue le moteur de détection. Dans la troisième partie, nous détaillons les propriétés théoriques des forêts uniformément aléatoires. Dans la quatrième, nous présentons un point de vue économique, lorsque les irrégularités aux cotisations sociales ont un caractère volontaire, cela dans le cadre de la lutte contre le travail dissimulé. En particulier, nous nous intéressons au lien entre la situation financière des entreprises et la fraude aux cotisations sociales. La dernière partie est consacrée aux résultats expérimentaux et réels du modèle, dont nous discutons.Chacun des chapitres de la thèse peut être lu indépendamment des autres et quelques notions sont redondantes afin de faciliter l'exploration du contenu.
  • Sur la simulation des installations pétrolières offshore au niveau du système.

    Joris COSTES, Jean michel GHIDAGLIA, Philippe MUGUERRA, Keld LUND NIELSEN, Xavier RIOU, Jean philippe SAUT, Nicolas VAYATIS
    Proceedings of the 10th International Modelica Conference, March 10-12, 2014, Lund, Sweden | 2014
    Les installations pétrolières offshore sont des systèmes complexes qui font intervenir une physique élaborée combinée à des aspects stochastiques liés, par exemple, au risque de défaillance ou à la variation des prix. Bien qu'il existe de nombreux outils logiciels dédiés à la simulation des écoulements typiquement rencontrés dans les exploitations pétrolières, il n'y a toujours pas d'outil qui combine la physique (principalement la mécanique des fluides) et la simulation du risque. Un tel outil pourrait être utile aux ingénieurs ou aux décideurs pour la spécification, la conception et l'étude des installations pétrolières offshore. Nous présentons une première étape vers la création d'un tel outil. Notre simulateur actuel est basé sur de nouveaux composants Modelica pour simuler les flux de fluides et sur la simulation stochastique à un niveau plus élevé, pour la modélisation des risques et des coûts. Les composants Modelica mettent en œuvre des modèles physiques pour les flux monophasiques et diphasiques dans certains dispositifs typiques d'un champ offshore. La simulation du risque utilise des chaînes de Markov et des indicateurs statistiques pour évaluer la performance et la résilience du système sur plusieurs mois ou années de fonctionnement.
  • Avant-propos des rédacteurs invités.

    Nader h. BSHOUTY, Gilles STOLTZ, Nicolas VAYATIS, Thomas ZEUGMANN
    Theoretical Computer Science | 2014
    Pas de résumé disponible.
  • Apprentissage markovien non paramétrique de noyaux de déclenchement pour les processus de Hawkes multivariés mutuellement excitants et mutuellement inhibants.

    Remi LEMONNIER, Nicolas VAYATIS
    Lecture Notes in Computer Science | 2014
    Dans cet article, nous abordons le problème de l'adaptation des processus de Hawkes multivariés à des données potentiellement à grande échelle dans un contexte où les séries d'événements ne sont pas seulement mutuellement excitantes mais peuvent également présenter des modèles inhibiteurs. Nous nous concentrons sur l'apprentissage non paramétrique et proposons un nouvel algorithme appelé MEMIP (Markovian Estimation of Mutually Interacting Processes) qui utilise la théorie de l'approximation polynomiale et l'analyse autoconcordante afin d'apprendre à la fois les noyaux de déclenchement et les intensités de base des événements. De plus, en considérant que N observations historiques sont disponibles, l'algorithme effectue la maximisation de la log-vraisemblance en O(N) opérations, alors que la complexité des méthodes non-markoviennes est en O(N2). Des expériences numériques sur des données simulées, ainsi que sur des données du monde réel, montrent que notre méthode bénéficie de meilleures performances de prédiction par rapport aux méthodes de l'état de l'art comme MMEL et les noyaux exponentiels.
  • Tsunami amplification phenomena.

    Themistoklis STEFANAKIS, Frederic DIAS, Nicolas VAYATIS, Christian KHARIF, Costas SYNOLAKIS, Serge GUILLAS, Edward a. COX, Paolo SAMMARCO, Esteban g. TABAK
    2013
    Cette thèse est divisée en quatre parties. Dans la première, je vais présenter notre travail sur le run-up des vagues longues et sur les phénomènes d’amplification par résonance. Grâce à des simulations numériques basées sur les équations en eau peu profonde non-linéaires, nous montrons que dans le cas des vagues monochromatiques d’incidence normale sur une plage inclinée, une amplification résonante du run-up se produit lorsque la longueur de la vague d’entrée est 5.2 fois plus grande que la longueur de la plage. Nous montrons également que cette amplification résonante de run-up peut être observée à partir de plusieurs profils de vagues. Cependant, l’amplification résonante du run-up n’est pas limitée aux plages inclinées infinies. En faisant varier le profil bathymétrique, la résonance est également présente dans le cas de bathymétries linéaires par morceaux et pour des bathymétries réalistes. Dans la deuxième partie, je présente une nouvelle solution analytique pour étudier la propagation des tsunamis générés par une source non ponctuelle sur une profondeur constante en utilisant la théorie des vagues en eau peu profonde linéaires. La solution, qui repose sur la séparation des variables et sur une double transformée de Fourier dans l’espace, est exacte, facile à mettre en œuvre et permet l’étude d’ondes de formes réalistes comme les ondes en forme de N (N–waves). Dans la troisième partie, j'étudie l’effet de protubérances localisées sur la génération de vagues longues. Même lorsque le déplacement final est connu grâce à l’analyse sismique, le plancher océanique qui se déforme peut avoir du relief comme des montagnes et des failles. On étudie analytiquement l’effet de la bathymétrie sur la génération des vagues de surface, en résolvant les équations en eau peu profonde linéaires avec for. Nous constatons que quand la hauteur du rebord augmente, le piégeage partiel de la vague permet de réduire la hauteur des vagues dans le champ lointain, tout en l’amplifiant au-dessus du rebord. Je vais aussi présenter brièvement une solution de la même équation forcée au-dessus d’un cône. Enfin, dans la dernière partie, nous verrons si les petites îles peuvent protéger les côtes proches de tsunamis comme il est largement admis par les communautés locales. Des découvertes récentes sur le tsunami des îles Mentawai en 2010 montrent un run-up amplifié sur les zones côtières derrière de petites îles, par rapport au run-up sur les lieux adjacents, qui ne sont pas influencés par la présence des îles. Nous allons étudier les conditions de cette amplification du run-up en résolvant numériquement les équations en eau peu profonde non-linaires. Le dispositif expérimental est régi par cinq paramètres physiques. L’objectif est double: Trouver l’amplification maximale du run-up avec un nombre minimum de simulations. Nous présentons un plan d’expériences actif, récemment mis au point et basé sur les processus Gaussiens, qui réduit considérablement le coût de calcul. Après exécution de deux cents simulations, nous constatons que dans aucun des cas considérés l’île n’offre une protection à la zone côtière derrière elle. Au contraire, nous avons mesuré une amplification du run-up sur la plage derrière elle par rapport à une position latérale sur la plage non directement affectée par la présence de l’île. Cette amplification a atteint un facteur maximal de 1.7. Ainsi, les petites îles à proximité du territoire continental agissent comme des amplificateurs des vagues longues dans la région directement derrière elles et non comme des obstacles naturels comme il était communément admis jusqu’ici.
  • Optimisation parallèle de processus gaussiens avec limite de confiance supérieure et exploration pure.

    Emile CONTAL, David BUFFONI, Alexandre ROBICQUET, Nicolas VAYATIS
    Lecture Notes in Computer Science | 2013
    Dans cet article, nous considérons le défi de maximiser une fonction inconnue f pour laquelle les évaluations sont bruyantes et sont acquises avec un coût élevé. Une procédure itérative itérative utilise les mesures précédentes pour sélectionner activement la prochaine estimation de f qui est prédite comme étant la plus utile. f qui est prédite comme étant la plus utile. Nous nous concentrons sur le cas où la Nous nous concentrons sur le cas où la fonction peut être évaluée en parallèle avec des lots de taille fixe. l'avantage par rapport à la procédure purement séquentielle en termes de regret cumulatif. cumulatif. Nous présentons l'algorithme d'exploration pure et de limite supérieure de confiance par processus gaussien (GP-UCC). d'exploration pure (GP-UCB-PE) qui combine la stratégie UCB et l'exploration pure dans le même lot d'évaluations. exploration pure dans le même lot d'évaluations au cours des itérations parallèles. Nous Nous prouvons des limites supérieures théoriques sur le regret avec des lots de taille K pour cette procédure. K pour cette procédure qui montre une amélioration de l'ordre de sqrt{K} pour des coût d'itération fixe par rapport aux versions purement séquentielles. De plus, les constantes multiplicatives multiplicatives impliquées ont la propriété d'être sans dimension. Nous confirmons également Nous confirmons également de manière empirique l'efficacité de GP-UCB-PE sur des problèmes réels et synthétiques par rapport aux concurrents de pointe. par rapport aux concurrents de l'état de l'art.
  • Classement des forêts.

    Stephan CLEMENCON, Marine DEPECKER, Nicolas VAYATIS
    Journal of Machine Learning Research | 2013
    Le présent article examine comment les principes d'agrégation et de randomisation des caractéristiques qui sous-tendent l'algorithme RANDOM FOREST (Breiman, 2001) peuvent être adaptés au classement bipartite. L'approche adoptée ici est basée sur le scoring non paramétrique et l'optimisation de la courbe ROC au sens du critère AUC. Dans cette problématique, l'agrégation est utilisée pour augmenter les performances des règles de scoring produites par des arbres de classement, comme ceux développés dans Clémençon et Vayatis (2009c). Le présent travail décrit les principes de construction de règles de scoring médianes basées sur des concepts issus de l'agrégation de rangs. Des résultats de cohérence sont dérivés pour ces règles de notation agrégées et un algorithme appelé RANKING FOREST est présenté. En outre, diverses stratégies de randomisation des caractéristiques sont explorées à travers une série d'expériences numériques sur des ensembles de données artificielles.
  • Machine-learning pour la prédiction des prix dans le secteur du tourisme en ligne.

    Till WOHLFARTH, Stephan CLEMENCON, Francois ROUEFF, Thierry ARTIERES, Patrice BERTAIL, Fabrice ROSSI, Nicolas VAYATIS
    2013
    Nous nous intéressons au problème de la prédiction de l’occurrence d’une baisse de prix pour fournir un conseil à l’achat immédiat ou reporté d’un voyage sur un site web de comparaison des prix. La méthodologie proposée repose sur l’apprentissage statistique d’un modèle d’évolution du prix à partir de l’information conjointe d’attributs du voyage considéré et d’observations passées du prix et de la "popularité" celui-ci. L’originalité principale consiste à représenter l’évolution des prix par le processus ponctuel inhomogène des sauts de celui-ci. A partir d’une base de données constituée par liligo.com, nous mettons en oeuvre une méthode d’apprentissage d’un modèle d’évolution des prix. Ce modèle permet de fournir un prédicteur de l’occurrence d’une baisse du prix sur une période future donnée et donc de prodiguer un conseil d’achat ou d’attente au client.
  • Sloshing dans l'industrie du transport maritime de GNL : modélisation du risque par une analyse multivariée à queue lourde.

    Antoine DEMATTEO, Stephan CLEMENCON, Nicolas VAYATIS, Mathilde MOUGEOT
    2013
    Dans l'industrie du transport maritime de gaz naturel liquéfié (GNL), le phénomène de sloshing peut conduire à l'apparition de pressions très élevées dans les réservoirs du navire. La question de la modélisation ou de l'estimation de la probabilité de l'apparition simultanée de ces pressions extrêmes est désormais cruciale du point de vue de l'évaluation des risques. Dans cet article, la modélisation de la queue lourde, largement utilisée comme une approche conservatrice de l'évaluation des risques et correspondant à une analyse des risques de la pire éventualité, est appliquée à l'étude du sloshing. Des distributions multivariées à queue lourde sont considérées, avec des pressions de sloshing étudiées au moyen de répliques de réservoirs à petite échelle équipés de capteurs d >1. Lorsque l'on tente d'ajuster de tels modèles statistiques non paramétriques, on est naturellement confronté à des problèmes de calcul inhérents au phénomène de dimensionnalité. L'objectif principal de cet article est de surmonter cet obstacle en introduisant une nouvelle méthodologie. Pour les distributions à queue lourde de dimension d, la structure de la dépendance extrémale est entièrement caractérisée par la mesure angulaire, une mesure positive sur l'intersection d'une sphère avec l'orthant positif dans Rd. Lorsque d augmente, la dépendance extrémale mutuelle entre les variables devient difficile à évaluer. En se basant sur une approche de regroupement spectral, nous montrons ici comment une approximation de faible dimension de la mesure angulaire peut être trouvée. La méthode non paramétrique proposée pour le sloshing modèle a été appliquée avec succès aux données de pression. La représentation parcimonieuse ainsi obtenue s'avère très pratique pour la simulation de distributions multivariées à queue lourde, permettant la mise en œuvre de schémas de simulation de Monte-Carlo dans l'estimation de la probabilité de défaillance. Outre la confirmation de ses performances sur des données artificielles, la méthodologie a été mise en œuvre sur un ensemble de données réelles collectées spécifiquement pour l'évaluation des risques de sloshing dans l'industrie du transport maritime de GNL.
  • Classement de données avec des étiquettes ordinales : optimalité et agrégation par paires.

    Stephan CLEMENCON, Sylvain ROBBIANO, Nicolas VAYATIS
    Machine Learning | 2013
    Pas de résumé disponible.
  • Algorithmes de poursuite stochastiques et inégalités de concentration empiriques pour l'apprentissage statistique.

    Thomas PEEL, Liva RALAIVOLA, Sandrine ANTHOINE, Francois DENIS, Sandrine ANTHOINE, Matthieu KOWALSKI, Eric DEBREUVE, Laurent DAUDET, Nicolas VAYATIS
    2013
    La première partie de cette thèse introduit de nouveaux algorithmes de décomposition parcimonieuse de signaux. Basés sur Matching Pursuit (MP) ils répondent au problème suivant : comment réduire le temps de calcul de l'étape de sélection de MP, souvent très coûteuse. En réponse, nous sous-échantillonnons le dictionnaire à chaque itération, en lignes et en colonnes. Nous montrons que cette approche fondée théoriquement affiche de bons résultats en pratique. Nous proposons ensuite un algorithme itératif de descente de gradient par blocs de coordonnées pour sélectionner des caractéristiques en classification multi-classes. Celui-ci s'appuie sur l'utilisation de codes correcteurs d'erreurs transformant le problème en un problème de représentation parcimonieuse simultanée de signaux. La deuxième partie expose de nouvelles inégalités de concentration empiriques de type Bernstein. En premier, elles concernent la théorie des U-statistiques et sont utilisées pour élaborer des bornes en généralisation dans le cadre d'algorithmes de ranking. Ces bornes tirent parti d'un estimateur de variance pour lequel nous proposons un algorithme de calcul efficace. Ensuite, nous présentons une version empirique de l'inégalité de type Bernstein proposée par Freedman [1975] pour les martingales. Ici encore, la force de notre borne réside dans l'introduction d'un estimateur de variance calculable à partir des données. Cela nous permet de proposer des bornes en généralisation pour l'ensemble des algorithmes d'apprentissage en ligne améliorant l'état de l'art et ouvrant la porte à une nouvelle famille d'algorithmes d'apprentissage tirant parti de cette information empirique.
  • Méthodes de régularisation pour la prédiction dans les graphes dynamiques et applications de cybermarketing.

    Emile RICHARD, Nicolas VAYATIS, Francis BACH, Theodoros EVGENIOU, Stephane GAIFFAS, Michael irwin JORDAN, Thibaut MUNIER, Massimiliano PONTIL, Jean philippe VERT
    2012
    La prédiction de connexions entre objets, basée soit sur une observation bruitée, soit sur une suite d'observations est un problème d'intérêt pour un nombre d'applications allant de la conception de système de recommandation en commerce électronique et réseaux sociaux jusqu'à l'inférence de réseaux en biologie moléculaire. Ce travail présente des formulations du problème de prédiction de lien, dans les cadres statique et temporel, comme un problème régularisé. Dans le scénario statique c'est la combinaison de deux normes bien connues, la norme L1 et la trace-norme qui permet de prédire les liens, alors que dans le cas dynamique, l'utilisation d'un modèle autoregressif sur des descripteurs linéaires permet d'améliorer la qualité de la prédiction. Nous étudierons la nature des solutions des problèmes d'optimisation à la fois en termes statistique et algorithmique. Des résultats empiriques encourageant mettent en évidence l'apport de la méthodologie adoptée.
  • Méthodes d'apprentissage automatique pour les flux discrets multi-échelles : application à la finance.

    Nicolas MAHLER, Nicolas VAYATIS, Marc HOFFMANN, Charles albert LEHALLE, Stephan CLEMENCON, Mathieu ROSENBAUM, Liva RALAIVOLA
    2012
    Ce travail de recherche traite du problème d'identification et de prédiction des tendances d'une série financière considérée dans un cadre multivarié. Le cadre d'étude de ce problème, inspiré de l'apprentissage automatique, est défini dans le chapitre I. L'hypothèse des marchés efficients, qui entre en contradiction avec l'objectif de prédiction des tendances, y est d'abord rappelée, tandis que les différentes écoles de pensée de l'analyse de marché, qui s'opposent dans une certaine mesure à l'hypothèse des marchés efficients, y sont également exposées. Nous explicitons les techniques de l'analyse fondamentale, de l'analyse technique et de l'analyse quantitative, et nous nous intéressons particulièrement aux techniques de l'apprentissage statistique permettant le calcul de prédictions sur séries temporelles. Les difficultés liées au traitement de facteurs temporellement dépendants et/ou non-stationnaires sont soulignées, ainsi que les pièges habituels du surapprentrissage et de la manipulation imprudente des données. Les extensions du cadre classique de l'apprentissage statistique, particulièrement l'apprentissage par transfert, sont présentées. La contribution principale de ce chapitre est l'introduction d'une méthodologie de recherche permettant le développement de modèles numériques de prédiction de tendances. Cette méthodologie est fondée sur un protocole d'expérimentation, constitué de quatre modules. Le premier module, intitulé Observation des Données et Choix de Modélisation, est un module préliminaire dévoué à l'expression de choix de modélisation, d'hypothèses et d'objectifs très généraux. Le second module, Construction de Bases de Données, transforme la variable cible et les variables explicatives en facteurs et en labels afin d'entraîner les modèles numériques de prédiction de tendances. Le troisième module, intitulé Construction de Modèles, a pour but la construction de modèles numériques de prédiction de tendances. Le quatrième et dernier module, intitulé Backtesting et Résultats Numériques, évalue la précision des modèles de prédiction de tendances sur un ensemble de test significatif, à l'aide de deux procédures génériques de backtesting. Le première procédure renvoie les taux de reconnaissance des tendances de hausse et de baisse. La seconde construit des règles de trading au moyen des predictions calculées sur l'ensemble de test. Le résultat (P&L) de chacune des règles de trading correspond aux gains et aux pertes accumulés au cours de la période de test. De plus, ces procédures de backtesting sont complétées par des fonctions d'interprétation, qui facilite l'analyse du mécanisme décisionnel des modèles numériques. Ces fonctions peuvent être des mesures de la capacité de prédiction des facteurs, ou bien des mesures de fiabilité des modèles comme des prédictions délivrées. Elles contribuent de façon décisive à la formulation d'hypothèses mieux adaptées aux données, ainsi qu'à l'amélioration des méthodes de représentation et de construction de bases de données et de modèles. Ceci est explicité dans le chapitre IV. Les modèles numériques, propres à chacune des méthodes de construction de modèles décrites au chapitre IV, et visant à prédire les tendances des variables cibles introduites au chapitre II, sont en effet calculés et backtestés. Les raisons du passage d'une méthode de construction de modèles à une autre sont particulièrement étayées. L'influence du choix des paramètres - et ceci à chacune des étapes du protocole d'expérimentation - sur la formulation de conclusions est elle aussi mise en lumière. La procédure PPVR, qui ne requiert aucun calcul annexe de paramètre, a ainsi été utilisée pour étudier de façon fiable l'hypothèse des marchés efficients. De nouvelles directions de recherche pour la construction de modèles prédictifs sont finalement proposées.
  • New Insights into Decision Trees Ensembles.

    Vincent PISETTA, Djamel abdelkader ZIGHED, Alexandre AUSSEM, Nicolas VAYATIS, Lorenza SAITTA, Antoine CORNUEJOLS, Gilbert RITSCHARD, Gilles COHEN, Fabien RICO, Nicolas VAYATIS, Lorenza SAITTA
    2012
    Les ensembles d’arbres constituent à l’heure actuelle l’une des méthodes d’apprentissage statistique les plus performantes. Toutefois, leurs propriétés théoriques, ainsi que leurs performances empiriques restent sujettes à de nombreuses questions. Nous proposons dans cette thèse d’apporter un nouvel éclairage à ces méthodes. Plus particulièrement, après avoir évoqué les aspects théoriques actuels (chapitre 1) de trois schémas ensemblistes principaux (Forêts aléatoires, Boosting et Discrimination Stochastique), nous proposerons une analyse tendant vers l’existence d’un point commun au bien fondé de ces trois principes (chapitre 2). Ce principe tient compte de l’importance des deux premiers moments de la marge dans l’obtention d’un ensemble ayant de bonnes performances. De là, nous en déduisons un nouvel algorithme baptisé OSS (Oriented Sub-Sampling) dont les étapes sont en plein accord et découlent logiquement du cadre que nous introduisons. Les performances d’OSS sont empiriquement supérieures à celles d’algorithmes en vogue comme les Forêts aléatoires et AdaBoost. Dans un troisième volet (chapitre 3), nous analysons la méthode des Forêts aléatoires en adoptant un point de vue « noyau ». Ce dernier permet d’améliorer la compréhension des forêts avec, en particulier la compréhension et l’observation du mécanisme de régularisation de ces techniques. Le fait d’adopter un point de vue noyau permet d’améliorer les Forêts aléatoires via des méthodes populaires de post-traitement comme les SVM ou l’apprentissage de noyaux multiples. Ceux-ci démontrent des performances nettement supérieures à l’algorithme de base, et permettent également de réaliser un élagage de l’ensemble en ne conservant qu’une petite partie des classifieurs le composant.
  • Stratégies de vision active pour la reconnaissance d'objets.

    Joseph DEFRETIN, Nicolas VAYATIS, Matthieu CORD, Jacques BLANC TALON, Stephane HERBIN, Guy LE BESNERAIS, Francois CHARPILLET, Simon LACROIX
    2011
    Cette thèse, réalisée en coopération avec l’ONERA, concerne la reconnaissance active d’objets 3D par un agent autonome muni d’une caméra d’observation. Alors qu’en reconnaissance passive les modalités d’acquisitions des observations sont imposées et génèrent parfois des ambiguïtés, la reconnaissance active exploite la possibilité de contrôler en ligne ces modalités d’acquisition au cours d’un processus d’inférence séquentiel dans le but de lever l’ambiguïté. L’objectif des travaux est d’établir des stratégies de planification dans l’acquisition de l’information avec le souci d’une mise en œuvre réaliste de la reconnaissance active. Le cadre de l’apprentissage statistique est pour cela mis à profit. La première partie des travaux se consacre à apprendre à planifier. Deux contraintes réalistes sont prise en compte : d’une part, une modélisation imparfaite des objets susceptible de générer des ambiguïtés supplémentaires - d’autre part, le budget d’apprentissage est coûteux (en temps, en énergie), donc limité. La deuxième partie des travaux s’attache à exploiter au mieux les observations au cours de la reconnaissance. La possibilité d’une reconnaissance active multi-échelles est étudiée pour permettre une interprétation au plus tôt dans le processus séquentiel d’acquisition de l’information. Les observations sont également utilisées pour estimer la pose de l’objet de manière robuste afin d’assurer la cohérence entre les modalités planifiées et celles réellement atteintes par l’agent visuel.
  • Quelques questions de sélection de variables autour de l'estimateur Lasso.

    Mohamed HEBIRI, Nicolas VAYATIS
    2009
    Le probleme general etudier dans cette these est celui de la regression lineaire en grande dimension. On s'intéresse particulièrement aux méthodes d'estimation qui capturent la sparsité du paramètre cible, Même dans le cas où la dimension est supérieure au nombre d'observations. Une méthode populaire pour estimer le paramètre inconnu de la régression dans ce contexte est l'estimateur des moindres carrés Pénalisés par la norme S\ell_1S des coefficients, connu sous le nom de lasso. Les contributions de la thèse portent sur l'étude de variantes du lasso prenant en compte soit des Informations supplémentaires sur les variables d'entrée, soit des modes semi-supervisés d'acquisition des données. Plus précisément, les questions abordées dans ce travail sont : i) l'estimation du paramètre inconnu Lorsque l'espace des variables explicatives a une structure bien déterminée (présence de corrélations, Structure d'ordre sur les variables ou regroupements entre variables) . ii) la construction d'estimateurs Adaptés au cadre transductif, pour lequel les nouvelles observations non étiquetées sont prises en considération. Ces adaptations sont en partie déduites par une modification de la pénalité dans la Définition de l'estimateur lasso. Les procédures introduites sont essentiellement analysées d'un point de vue non-asymptotipue . nous Prouvons notamment que les estimateurs vérifient des inégalités de sparsité oracles. Des résultats de consistance en sélection de variables sont également établis. Les performances pratiques des méthodes étudiées sont par ailleurs illustrées à travers des résultats de simulation.
  • Approches statistiques de la théorie de l'apprentissage : boosting et classement.

    Nicolas VAYATIS
    2006
    La théorie de l'apprentissage statistique a connu une croissance rapide au cours des dix dernières années. L'introduction d'algorithmes de classification efficaces, tels que le boosting et les machines à vecteurs de support, traitant des données à haute dimension, a généré de nouvelles questions auxquelles la théorie de Vapnik-Chervonenkis (VC) ne pouvait répondre. Le principe de minimisation du risque empirique ne tient pas compte des algorithmes d'apprentissage pratiques et la dimension VC n'est pas le concept approprié pour expliquer la capacité de généralisation de ces méthodes. Dans le premier chapitre, nous rappelons les interprétations des algorithmes de boosting comme des implémentations des principes de minimisation du risque convexe et nous étudions leurs propriétés sous ce point de vue. En particulier, nous montrons l'importance de la régularisation afin d'obtenir des stratégies cohérentes. Nous développons également une nouvelle classe d'algorithmes appelée "Mirror Averaging Algorithm" et nous évaluons leurs performances par des expériences de simulation. Après avoir présenté les idées fondamentales qui sous-tendent le boosting, nous étudions, dans le deuxième chapitre, des questions plus avancées telles que les inégalités d'oracle. Ainsi, nous proposons une calibration fine de la fonction de pénalité en fonction de la fonction de coût utilisée et nous présentons des résultats non asymptotiques sur la performance des estimateurs de boosting pénalisés, avec des raffinements tels que des taux de convergence rapides sous les conditions de marge de Mammen-Tsybakov. Nous décrivons également les propriétés d'approximation du boosting en utilisant des souches de décision. Le troisième chapitre explore le problème du classement. Dans des applications telles que la recherche d'information ou l'évaluation du crédit, le classement des instances peut être beaucoup plus important que leur simple classification. Nous proposons une formulation simple de ce problème dans laquelle le classement est équivalent à la classification avec des paires d'observations. La différence réside dans la nature des risques empiriques qui prennent la forme de statistiques U et nous développons la théorie de la classification afin de l'adapter à ce cadre. Nous étudions également les possibilités de généraliser l'erreur de classement afin d'inclure des prieurs sur le classement que nous visons, par exemple, lorsque nous voulons nous concentrer uniquement sur les "meilleures" instances.
Les affiliations sont détectées à partir des signatures des publications identifiées dans scanR. Un auteur peut donc apparaître affilié à plusieurs structures ou tutelles en fonction de ces signatures. Les dates affichées correspondent seulement aux dates des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr