RIVOIRARD Vincent

< Retour à ILB Patrimoine
Thématiques des productions
Affiliations
  • 2012 - 2020
    Centre de recherches en mathématiques de la décision
  • 2014 - 2015
    Université Paris-Dauphine
  • 2014 - 2015
    Communauté d'universités et établissements Université de Recherche Paris Sciences et Lettres
  • 2001 - 2002
    Université Paris Diderot
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2002
  • Des modèles simples d'auto-excitation en temps discret peuvent décrire des processus dynamiques complexes : Une étude de cas de COVID-19.

    Raiha BROWNING, Deborah SULEM, Kerrie MENGERSEN, Vincent RIVOIRARD, Judith ROUSSEAU
    PLOS ONE | 2021
    Les processus de Hawkes sont une forme de processus d'auto-excitation qui a été utilisée dans de nombreuses applications, notamment en neuroscience, en sismologie et en terrorisme. Bien que ces processus auto-excitants aient une formulation simple, ils peuvent modéliser des phénomènes incroyablement complexes. Traditionnellement, les processus de Hawkes sont des processus à temps continu, mais nous permettons à ces modèles d'être appliqués à un plus grand nombre de problèmes en considérant une variante à temps discret des processus de Hawkes. Nous illustrons cela par la nouvelle maladie à coronavirus (COVID-19) comme étude de cas substantielle. Alors que d'autres modèles, tels que les modèles compartimentaux et les modèles de courbe de croissance, ont été largement appliqués à l'épidémie de COVID-19, l'utilisation de processus de Hawkes en temps discret nous permet d'obtenir d'autres informations. Cet article évalue la capacité des processus de Hawkes en temps discret en modélisant les comptes de mortalité quotidiens comme des phases distinctes de l'épidémie COVID-19. Nous considérons d'abord la phase initiale de croissance exponentielle et le déclin qui s'ensuit lorsque les mesures préventives deviennent efficaces. Nous explorons ensuite les phases ultérieures à l'aide de données plus récentes. Nous considérons différents pays qui ont été touchés par l'épidémie, à savoir le Brésil, la Chine, la France, l'Allemagne, l'Inde, l'Italie, l'Espagne, la Suède, le Royaume-Uni et les États-Unis. Ces pays sont tous uniques en ce qui concerne la propagation du virus et les mesures de réponse correspondantes. Cependant, nous constatons que ce modèle simple est utile pour saisir avec précision la dynamique du processus, malgré les interactions cachées qui ne sont pas directement modélisées en raison de leur complexité, et les différences au sein des pays et entre eux. L'utilité de ce modèle ne se limite pas à l'épidémie actuelle de COVID-19, mais il pourrait expliquer de nombreux autres phénomènes complexes. Il est intéressant de disposer de modèles simples qui décrivent de manière adéquate ces processus complexes dont la dynamique est inconnue. Lorsque les modèles deviennent plus complexes, une représentation plus simple du processus peut être souhaitable pour des raisons de parcimonie.
  • Modélisation et analyse statistique des données de trafic de latence sur Internet.

    Alexis FREMOND, Marc HOFFMANN, Gerard BIAU, Marc HOFFMANN, Gerard BIAU, Mathieu ROSENBAUM, Arnak s. DALALYAN, Vincent RIVOIRARD, Mathieu ROSENBAUM, Arnak s. DALALYAN
    2020
    La vitesse des échanges d'information dans le réseau Internet se mesure à l'aide de la latence: une durée mesurant le temps écoulé entre l'envoi du premier bit d'information d'une requête et la réception du premier bit d'information de la réponse. Dans cette thèse réalisée en collaboration avec la société Citrix, nous nous intéressons à l'étude et à la modélisation des données de latence dans un contexte d'optimisation de traffic Internet.Citrix collecte des données via deux canaux différents, générant des mesures de latence soupçonnées de partager des propriétés communes. Dans un premier temps, nous nous intéressons à un problème d'ajustement distributionnel où les co-variables et les réponses sont des mesures de probabilité images l'une de l'autre par un transport déterministe, et les observables des échantillons indépendants tirés selon ces lois. Nous proposons un estimateur de ce transport et démontrons ses propriétés de convergence. On montre que notre estimateur peut être utilisé pour faire correspondre les distributions des mesures de latence générées par les deux canaux.Dans un second temps nous proposons une stratégie de modélisation pour prédire le processus obtenu en calculant la médiane mobile des mesures de latence sur des partitions régulières de l'intervalle [0, T] avec un maillage D > 0. On montre que la moyenne conditionnelle de ce processus, qui joue un rôle majeur dans l'optimisation du traffic Internet, est correctement décrite par une décomposition en séries de Fourier et que sa variance conditionnelle s'organise en clusters qu'on modélise à l'aide d'un processus ARMA Seasonal-GARCH, c'est à dire un processus ARMA-GARCH avec ajout de termes saisonniers déterministes. Les performances prédictives de ce modèle sont comparées aux modèles de référence utilisés dans l'industrie. Une nouvelle mesure de la quantité d'information résiduelle non captée par le modèle basée sur un certain critère entropique est introduite.Nous abordons ensuite le problème de la détection de panne dans le réseau Internet. Nous proposons un algorithme de détection de changement dans la distribution d'un stream de données de latence basé sur la comparaison de deux fenêtres glissantes à l'aide d'une certain distance de Wasserstein pondérée.Enfin, nous décrivons comment sélectionner les données d'entraînement des algorithmes prédictifs de manière à réduire leur taille pour limiter les coûts de calculs sans impacter la précision.
  • Estimation bayésienne non paramétrique pour les processus de Hawkes multivariés.

    Sophie DONNET, Vincent RIVOIRARD, Judith ROUSSEAU
    Annals of Statistics | 2020
    Pas de résumé disponible.
  • Des modèles simples d'auto-excitation en temps discret peuvent décrire des processus dynamiques complexes : une étude de cas de COVID-19.

    Raiha BROWNING, Deborah SULEM, Kerrie MENGERSEN, Vincent RIVOIRARD, Judith ROUSSEAU
    2020
    Pas de résumé disponible.
  • Estimation non paramétrique du noyau de fragmentation basée sur une approximation de la distribution stationnaire d'une équation différentielle partielle.

    Van ha HOANG, Thanh mai PHAM NGOC, Vincent RIVOIRARD, Viet chi TRAN
    Scandinavian Journal of Statistics | 2020
    Nous considérons un modèle stochastique à base d'individus en temps continu pour décrire une population structurée en taille pour les divisions cellulaires. Ce modèle est motivé par la détection du vieillissement cellulaire en biologie. Nous abordons ici le problème de l'estimation non paramétrique du noyau régissant les divisions en nous basant sur le problème des valeurs propres lié au comportement asymptotique en grande population. Ce problème inverse implique un opérateur de déconvolution multiplicatif. En utilisant la technique de Fourier, nous dérivons un estimateur non paramétrique dont nous étudions la cohérence. La principale difficulté vient des équations non standard reliant les transformées de Fourier du noyau et les paramètres du modèle. Une étude numérique est réalisée et nous accordons une attention particulière à la dérivation des largeurs de bande en utilisant le rééchantillonnage.
  • Contributions à l'étude théorique de l'inférence variationnelle et de la robustesse.

    Badr eddine CHERIEF ABDELLATIF, Pierre ALQUIER, Elisabeth GASSIAT, Pierre ALQUIER, Elisabeth GASSIAT, Arnaud DOUCET, Ismael CASTILLO, Arnak s. DALALYAN, Aurelien GARIVIER, Vincent RIVOIRARD, Arnaud DOUCET, Ismael CASTILLO
    2020
    Cette thèse de doctorat traite de l'inférence variationnelle et de la robustesse en statistique et en machine learning. Plus précisément, elle se concentre sur les propriétés statistiques des approximations variationnelles et sur la conception d'algorithmes efficaces pour les calculer de manière séquentielle, et étudie les estimateurs basés sur le Maximum Mean Discrepancy comme règles d'apprentissage qui sont robustes à la mauvaise spécification du modèle.Ces dernières années, l'inférence variationnelle a été largement étudiée du point de vue computationnel, cependant, la littérature n'a accordé que peu d'attention à ses propriétés théoriques jusqu'à très récemment. Dans cette thèse, nous étudions la consistence des approximations variationnelles dans divers modèles statistiques et les conditions qui assurent leur consistence. En particulier, nous abordons le cas des modèles de mélange et des réseaux de neurones profonds. Nous justifions également d'un point de vue théorique l'utilisation de la stratégie de maximisation de l'ELBO, un critère numérique qui est largement utilisé dans la communauté VB pour la sélection de modèle et dont l'efficacité a déjà été confirmée en pratique. En outre, l'inférence Bayésienne offre un cadre d'apprentissage en ligne attrayant pour analyser des données séquentielles, et offre des garanties de généralisation qui restent valables même en cas de mauvaise spécification des modèles et en présence d'adversaires. Malheureusement, l'inférence Bayésienne exacte est rarement tractable en pratique et des méthodes d'approximation sont généralement employées, mais ces méthodes préservent-elles les propriétés de généralisation de l'inférence Bayésienne ? Dans cette thèse, nous montrons que c'est effectivement le cas pour certains algorithmes d'inférence variationnelle (VI). Nous proposons de nouveaux algorithmes tempérés en ligne et nous en déduisons des bornes de généralisation. Notre résultat théorique repose sur la convexité de l'objectif variationnel, mais nous soutenons que notre résultat devrait être plus général et présentons des preuves empiriques à l'appui. Notre travail donne des justifications théoriques en faveur des algorithmes en ligne qui s'appuient sur des méthodes Bayésiennes approchées.Une autre question d'intérêt majeur en statistique qui est abordée dans cette thèse est la conception d'une procédure d'estimation universelle. Cette question est d'un intérêt majeur, notamment parce qu'elle conduit à des estimateurs robustes, un thème d'actualité en statistique et en machine learning. Nous abordons le problème de l'estimation universelle en utilisant un estimateur de minimisation de distance basé sur la Maximum Mean Discrepancy. Nous montrons que l'estimateur est robuste à la fois à la dépendance et à la présence de valeurs aberrantes dans le jeu de données. Nous mettons également en évidence les liens qui peuvent exister avec les estimateurs de minimisation de distance utilisant la distance L2. Enfin, nous présentons une étude théorique de l'algorithme de descente de gradient stochastique utilisé pour calculer l'estimateur, et nous étayons nos conclusions par des simulations numériques. Nous proposons également une version Bayésienne de notre estimateur, que nous étudions à la fois d'un point de vue théorique et d'un point de vue computationnel.
  • Déconvolution statistique de l'équation libre de Fokker-Planck à temps fixe.

    Mylene MAIDA, Tien DAT NGUYEN, Thanh mai PHAM NGOC, Vincent RIVOIRARD, Viet chi TRAN
    2020
    Nous nous intéressons à la reconstruction de la condition initiale d'une équation aux dérivées partielles (EDP) non linéaire, à savoir l'équation de Fokker-Planck, à partir de l'observation d'un mouvement brownien de Dyson à un instant donné t > 0. L'équation de Fokker-Planck décrit l'évolution de systèmes de particules électrostatiques répulsives, et peut être considérée comme la limite des grandes particules des mouvements browniens de Dyson correctement renormalisés. La solution de l'équation de Fokker-Planck peut être écrite comme la convolution libre de la condition initiale et de la distribution semi-circulaire. Nous proposons un estimateur non paramétrique de la condition initiale obtenu en effectuant la déconvolution libre via la méthode des fonctions de subordination. Cet estimateur statistique est original car il implique la résolution d'une équation à point fixe, et une déconvolution classique par une distribution de Cauchy. Ceci est dû au fait que, en probabilité libre, l'analogue de la transformée de Fourier est la transformée R, liée à la transformée de Cauchy. Dans la littérature antérieure, l'accent a été mis sur l'estimation des conditions initiales des EDP linéaires telles que l'équation de la chaleur, mais à notre connaissance, c'est la première fois que le problème est abordé pour une EDP non linéaire. La convergence de l'estimateur est prouvée et l'erreur quadratique moyenne intégrée est calculée, fournissant des taux de convergence similaires à ceux connus pour les méthodes de déconvolution non-paramétriques. Enfin, une étude de simulation illustre les bonnes performances de notre estimateur.
  • Déconvolution uniforme pour les processus ponctuels de Poisson.

    Anna BONNET, Claire LACOUR, Franck PICARD, Vincent RIVOIRARD
    2020
    Nous nous concentrons sur l'estimation de l'intensité d'un processus de Poisson en présence d'un bruit uniforme. Nous proposons une procédure basée sur les noyaux, entièrement calibrée en théorie et en pratique. Nous montrons que notre estimateur adaptatif est optimal du point de vue de l'oracle et du minimax, et nous fournissons de nouvelles bornes inférieures lorsque l'intensité appartient à une boule de Sobolev. En développant la méthodologie de Goldenshluger-Lepski dans le cas de la déconvolution pour les processus de Pois-son, nous proposons une sélection optimale de la largeur de bande du noyau en fonction des données, et nous fournissons un cadre heuristique pour calibrer l'estimateur en pratique. Notre méthode est illustrée sur la répartition spatiale des origines de réplication le long du génome humain.
  • Inférence statistique pour un système interactif partiellement observé de processus de Hawkes.

    Chenguang LIU, Nicolas FOURNIER, Sylvain DELATTRE, Marc HOFFMANN, Ismael CASTILLO, Emmanuelle CLEMENT, Vincent RIVOIRARD
    2019
    Nous observons les actions d'un sous-échantillon de K de N d’individus, pendant un intervalle de temps de longueur t>0, pour certaines grandes K≤N. Nous modélisons les relations des individus par i.i.d. Bernoulli (p) variables aléatoires, où p∈(0,1] est un paramètre inconnu. Le taux d’action de chaque individu dépend d’un paramètre inconnu μ>0 et sur la somme de quelque fonction ϕ des âges des actions des individus qui l'influencent. La fonction ϕ est inconnue mais nous supposons qu'elle se désintègre rapidement. Le but de cette thèse est d'estimer le paramètre p, qui est la principale caractéristique du graphe d’interaction, dans l'asymptotique où taille de la population N→∞, la taille de la population observée K→∞, et dans un temps long t→∞. Soit mt le nombre moyen d'actions par individu jusqu'au temps t, qui dépend de tous les paramètres du modèle. Dans le cas sous-critique, où mt augmente linéairement, nous construisons un estimateur de p avec le taux de convergence 1K√+NmtK√+NKmt√. Dans le cas supercritique, où mt augmente rapidement de façon exponentielle, nous construisons un estimateur de p avec le taux de convergence 1K√+NmtK√. Dans un second temps, nous étudions la normalité asymptotique de ces estimateurs. Dans le cas sous-critique, le travail est très technique mais assez général, et nous sommes amenés à étudier trois régimes possibles, en fonction du terme dominant dans 1K√+NmtK√+NKmt√ à 0. Dans le cas supercritique, nous supposons malheureusement quelques conditions supplémentaires et considérons seulement l'un des deux régimes possibles.
  • Convergence et distributions postérieures bayésiennes spike et slab dans certains modèles à haute dimension.

    Romain MISMER, Ismael CASTILLO, Stephane BOUCHERON, Ismael CASTILLO, Stephane BOUCHERON, Aad w. van der VAART, Vincent RIVOIRARD, Cristina BUTUCEA, Pierre ALQUIER, Julyan ARBEL, Aad w. van der VAART, Vincent RIVOIRARD
    2019
    On s'intéresse d'abord au modèle de suite gaussienne parcimonieuse. Une approche bayésienne empirique sur l'a priori Spike and Slab permet d'obtenir la convergence à vitesse minimax du moment d'ordre 2 a posteriori pour des Slabs Cauchy et on prouve un résultat de sous-optimalité pour un Slab Laplace. Un meilleur choix de Slab permet d'obtenir la constante exacte. Dans le modèle d'estimation de densité, un a priori arbre de Polya tel que les variables de l'arbre ont une distribution de type Spike and Slab donne la convergence à vitesse minimax et adaptative pour la norme sup de la loi a posteriori et un théorème Bernstein-von Mises non paramétrique.
  • Un LASSO pondéré dépendant des données sous un bruit de Poisson.

    Patricia REYNAUD BOURET, Vincent RIVOIRARD, Laure SANSONNET, Rebecca WILLETT, Xin jiang HUNT
    IEEE Transactions on Information Theory | 2019
    Pas de résumé disponible.
  • Performance numérique de la comparaison pénalisée à l'overfitting pour l'estimation de la densité du noyau multivarié.

    Suzanne VARET, Claire LACOUR, Pascal MASSART, Vincent RIVOIRARD
    2019
    L'estimation de la densité par noyau est une méthode bien connue qui fait intervenir un paramètre de lissage (la largeur de bande) qui doit être réglé par l'utilisateur. Bien que cette méthode ait été largement utilisée, la sélection de la largeur de bande reste un défi en termes d'équilibre entre la performance algorithmique et la pertinence statistique. L'objectif de cet article est de comparer une méthode de sélection de la largeur de bande récemment développée pour l'estimation de la densité du noyau à celles qui sont couramment utilisées aujourd'hui (du moins celles qui sont implémentées dans le paquetage R). Cette nouvelle méthode s'appelle Comparaison pénalisée à l'overfitting (PCO). Elle a été proposée par certains des auteurs de cet article dans un travail précédent consacré à sa pertinence statistique d'un point de vue purement théorique. Elle est comparée ici à d'autres méthodes habituelles de sélection de largeur de bande pour l'estimation de densité à noyau univariée et multivariée sur la base d'études de simulation intensives. En particulier, la validation croisée et les critères d'insertion sont étudiés numériquement et comparés à la PCO. Le message à retenir est que PCO peut surpasser les méthodes classiques sans coût algorithmique supplémentaire.
  • Estimation non paramétrique de densités conditionnelles : grande dimension, parcimonie et algorithmes gloutons.

    Minh lien jeanne NGUYEN, Vincent RIVOIRARD, Claire LACOUR, Pascal MASSART, Vincent RIVOIRARD, Claire LACOUR, Pascal MASSART, Beatrice LAURENT, Markus REISS, Olivier LOPEZ, Arnak s. DALALYAN, Beatrice LAURENT, Markus REISS
    2019
    Nous considérons le problème d’estimation de densités conditionnelles en modérément grandes dimensions. Beaucoup plus informatives que les fonctions de régression, les densités condi- tionnelles sont d’un intérêt majeur dans les méthodes récentes, notamment dans le cadre bayésien (étude de la distribution postérieure, recherche de ses modes.). Après avoir rappelé les problèmes liés à l’estimation en grande dimension dans l’introduction, les deux chapitres suivants développent deux méthodes qui s’attaquent au fléau de la dimension en demandant : d’être efficace computation- nellement grâce à une procédure itérative gloutonne, de détecter les variables pertinentes sous une hypothèse de parcimonie, et converger à vitesse minimax quasi-optimale. Plus précisément, les deux méthodes considèrent des estimateurs à noyau bien adaptés à l’estimation de densités conditionnelles et sélectionnent une fenêtre multivariée ponctuelle en revisitant l’algorithme glouton RODEO (Re- gularisation Of Derivative Expectation Operator). La première méthode ayant des problèmes d’ini- tialisation et des facteurs logarithmiques supplémentaires dans la vitesse de convergence, la seconde méthode résout ces problèmes, tout en ajoutant l’adaptation à la régularité. Dans l’avant-dernier cha- pitre, on traite de la calibration et des performances numériques de ces deux procédures, avant de donner quelques commentaires et perspectives dans le dernier chapitre.
  • Estimation non paramétrique du noyau de fragmentation basée sur une approximation de la distribution stationnaire des EDP.

    Van ha HOANG, Thanh mai PHAM NGOC, Vincent RIVOIRARD, Viet chi TRAN
    2019
    Nous considérons un modèle stochastique à base d'individus en temps continu pour décrire une population structurée en taille pour les divisions cellulaires. Ce modèle est motivé par la détection du vieillissement cellulaire en biologie. Nous abordons ici le problème de l'estimation non paramétrique du noyau régissant les divisions en nous basant sur le problème des valeurs propres lié au comportement asymptotique en grande population. Ce problème inverse implique un opérateur de déconvolution multiplicatif. En utilisant la technique de Fourier, nous dérivons un estimateur non paramétrique dont nous étudions la cohérence. La principale difficulté vient des équations non standard reliant les transformées de Fourier du noyau et les paramètres du modèle. Une étude numérique est réalisée et nous accordons une attention particulière à la dérivation des largeurs de bande en utilisant le rééchantillonnage.
  • Algorithme gourmand adaptatif pour les dimensions modérément grandes dans l'estimation de la densité conditionnelle à noyau.

    Minh lien jeanne NGUYEN, Claire LACOUR, Vincent RIVOIRARD
    2019
    Cet article étudie l'estimation de la densité conditionnelle f (x, -) de Y i étant donné X i = x, à partir de l'observation d'un échantillon i.i.d. (X i , Y i) ∈ R d , i = 1, . Nous supposons que f ne dépend que de r composantes inconnues avec typiquement r d. Nous fournissons une stratégie adaptative entièrement non paramétrique basée sur des règles de noyau pour estimer f. Pour sélectionner la largeur de bande de notre règle de noyau, nous proposons un nouvel algorithme itératif rapide inspiré de l'algorithme Rodeo (Wasserman et Lafferty (2006)) pour détecter la structure de sparsité de f. Plus précisément, dans le cadre minimax, notre estimateur ponctuel, qui est adaptatif à la fois à la régularité et à la sparsité, atteint le taux de convergence quasi-optimal. Sa complexité de calcul est seulement O(dn log n).
  • Régression linéaire et apprentissage : contributions aux méthodes de régularisation et d’agrégation.

    Raphael DESWARTE, Guillaume LECUE, Gilles STOLTZ, Pierre ALQUIER, Guillaume LECUE, Gilles STOLTZ, Karim LOUNICI, Veronique GERVAIS, Tim VAN ERVEN, Olivier WINTENBERGER, Vincent RIVOIRARD
    2018
    Cette thèse aborde le sujet de la régression linéaire dans différents cadres, liés notamment à l’apprentissage. Les deux premiers chapitres présentent le contexte des travaux, leurs apports et les outils mathématiques utilisés. Le troisième chapitre est consacré à la construction d’une fonction de régularisation optimale, permettant par exemple d’améliorer sur le plan théorique la régularisation de l’estimateur LASSO. Le quatrième chapitre présente, dans le domaine de l’optimisation convexe séquentielle, des accélérations d’un algorithme récent et prometteur, MetaGrad, et une conversion d’un cadre dit “séquentiel déterministe" vers un cadre dit “batch stochastique" pour cet algorithme. Le cinquième chapitre s’intéresse à des prévisions successives par intervalles, fondées sur l’agrégation de prédicteurs, sans retour d’expérience intermédiaire ni modélisation stochastique. Enfin, le sixième chapitre applique à un jeu de données pétrolières plusieurs méthodes d’agrégation, aboutissant à des prévisions ponctuelles court-terme et des intervalles de prévision long-terme.
  • Reconstruction de la connectivité fonctionnelle de trains de pointes multiples à l'aide de modèles de Hawkes.

    Regis c LAMBERT, Christine TULEAU MALOT, Thomas BESSAIH, Vincent RIVOIRARD, Yann BOURET, Nathalie LERESCHE, Patricia REYNAUD BOURET
    Journal of Neuroscience Methods | 2018
    Pas de résumé disponible.
  • Taux de concentration postérieurs pour les procédures empiriques de Bayes avec applications aux mélanges de processus de Dirichlet.

    Sophie DONNET, Vincent RIVOIRARD, Judith ROUSSEAU, Catia SCRICCIOLO
    Bernoulli | 2018
    Nous fournissons des conditions sur le modèle statistique et la loi de probabilité antérieure pour dériver les taux de contraction des distributions postérieures correspondant aux prieurs dépendants des données dans une approche empirique de Bayes pour sélectionner les valeurs des hyperparamètres antérieurs. Nous cherchons à donner des conditions dans le même esprit que celles de l'article fondateur de Ghosal et van der Vaart [23]. Nous appliquons ensuite le résultat à des contextes statistiques spécifiques : estimation de la densité à l'aide de mélanges de processus de Dirichlet de densités gaussiennes dont la mesure de base dépend des valeurs d'hyperparamètres choisies en fonction des données et estimation de la fonction d'intensité de processus de comptage obéissant au modèle d'Aalen. Dans le premier cas, nous dérivons également des taux de récupération pour le problème inverse connexe de la déconvolution de densité. Dans le second cas, une étude de simulation pour des processus de Poisson inhomogènes illustre les résultats.
  • Reconstruction de la connectivité fonctionnelle de trains de pointes multiples à l'aide de modèles de Hawkes.

    Regis LAMBERT, Christine TULEAU MALOT, Thomas BESSAIH, Vincent RIVOIRARD, Yann BOURET, Nathalie LERESCHE, Patricia REYNAUD BOURET
    Journal of Neuroscience Methods | 2018
    Pas de résumé disponible.
  • NONPARAMETRIC BAYESIAN ESTIMATION OF MULTIVARIATE HAWKES PROCESSES.Estimation Bayésienne nonparamétrique pour des processus de Hawkes multivariés.

    Sophie DONNET, Vincent RIVOIRARD, Judith ROUSSEAU
    2018
    Cet article étudie l'estimation non paramétrique des paramètres des processus de Hawkes multivariés. Nous considérons le cadre bayésien et dérivons des taux de concentration postérieurs. Nous déduisons d'abord des taux pour la métrique L1 des intensités stochastiques du processus de Hawkes. Nous déduisons ensuite des taux pour la L1-norme des fonctions d'interactions du processus. Nos résultats sont illustrés en utilisant des prieurs basés sur des fonctions constantes par morceaux, avec des partitions régulières ou aléatoires et des prieurs basés sur des mélanges de distributions Betas. Des illustrations numériques sont ensuite proposées en gardant à l'esprit des applications pour l'inférence des graphes de connectivité fonctionnelle des neurones.
  • Modélisation de la dépendance entre des processus stochastiques à temps continu : une application à la modélisation des marchés de l'électricité et à la gestion des risques.

    Thomas DESCHATRE, Marc HOFFMANN, Jean david FERMANIAN, Marc HOFFMANN, Jean david FERMANIAN, Peter TANKOV, Markus BIBINGER, Vincent RIVOIRARD, Olivier FERON, Peter TANKOV, Markus BIBINGER
    2017
    Cette thèse traite de problèmes de dépendance entre processus stochastiques en temps continu. Ces résultats sont appliqués à la modélisation et à la gestion des risques des marchés de l'électricité.Dans une première partie, de nouvelles copules sont établies pour modéliser la dépendance entre deux mouvements Browniens et contrôler la distribution de leur différence. On montre que la classe des copules admissibles pour les Browniens contient des copules asymétriques. Avec ces copules, la fonction de survie de la différence des deux Browniens est plus élevée dans sa partie positive qu'avec une dépendance gaussienne. Les résultats sont appliqués à la modélisation jointe des prix de l'électricité et d'autres commodités énergétiques. Dans une seconde partie, nous considérons un processus stochastique observé de manière discrète et défini par la somme d'une semi-martingale continue et d'un processus de Poisson composé avec retour à la moyenne. Une procédure d'estimation pour le paramètre de retour à la moyenne est proposée lorsque celui-ci est élevé dans un cadre de statistique haute fréquence en horizon fini. Ces résultats sont utilisés pour la modélisation des pics dans les prix de l'électricité.Dans une troisième partie, on considère un processus de Poisson doublement stochastique dont l'intensité stochastique est une fonction d'une semi-martingale continue. Pour estimer cette fonction, un estimateur à polynômes locaux est utilisé et une méthode de sélection de la fenêtre est proposée menant à une inégalité oracle. Un test est proposé pour déterminer si la fonction d'intensité appartient à une certaine famille paramétrique. Grâce à ces résultats, on modélise la dépendance entre l'intensité des pics de prix de l'électricité et de facteurs exogènes tels que la production éolienne.
  • Régression multivariée adaptative par ondelettes avec erreurs dans les variables.

    Michael CHICHIGNOUD, Van ha HOANG, Thanh mai PHAM NGOC, Vincent RIVOIRARD
    Electronic journal of statistics | 2017
    Dans le cadre multidimensionnel, nous considérons le modèle des erreurs dans les variables. Notre objectif est d'estimer la fonction de régression non paramétrique multivariée inconnue avec des erreurs dans les covariables. Nous concevons un estimateur adaptatif basé sur des noyaux de projection sur les ondelettes et un opérateur de déconvolution. Nous proposons une procédure automatique et entièrement basée sur les données pour sélectionner la résolution du niveau des ondelettes. Nous obtenons une inégalité d'oracle et des taux de convergence optimaux sur les classes de Hölder anisotropes. Nos résultats théoriques sont illustrés par quelques simulations.
  • L'apprentissage non supervisé en haute dimension.

    Mehdi SEBBAR, Arnak s. DALALYAN, Alexandre b. TSYBAKOV, Arnak s. DALALYAN, Alexandre b. TSYBAKOV, Vincent RIVOIRARD, Cl?ment MARTEAU, Katia MEZIANI, Philippe ROLET, Vincent RIVOIRARD, Cl?ment MARTEAU
    2017
    Dans ce m?moire de th?se, nous abordons deux th?mes, le clustering en haute dimension d'une part et l'estimation de densit?s de m?lange d'autre part. Le premier chapitre est une introduction au clustering. Nous y pr?sentons diff?rentes m?thodes r?pandues et nous nous concentrons sur un des principaux mod?les de notre travail qui est le m?lange de Gaussiennes. Nous abordons aussi les probl?mes inh?rents ? l'estimation en haute dimension et la difficult? d'estimer le nombre de clusters. Nous exposons bri?vement ici les notions abord?es dans ce manuscrit. Consid?rons une loi m?lange de K Gaussiennes dans R^p. Une des approches courantes pour estimer les param?tres du m?lange est d'utiliser l'estimateur du maximum de vraisemblance. Ce probl?me n'?tant pas convexe, on ne peut garantir la convergence des m?thodes classiques. Cependant, en exploitant la biconvexit? de la log-vraisemblance n?gative, on peut utiliser la proc?dure it?rative 'Expectation-Maximization' (EM). Malheureusement, cette m?thode n'est pas bien adapt?e pour relever les d?fis pos?s par la grande dimension. Par ailleurs, cette m?thode requiert de conna?tre le nombre de clusters. Le Chapitre 2 pr?sente trois m?thodes que nous avons d?velopp?es pour tenter de r?soudre les probl?mes d?crits pr?c?demment. Les travaux qui y sont expos?s n'ont pas fait l'objet de recherches approfondies pour diverses raisons. La premi?re m?thode, 'lasso graphique sur des m?langes de Gaussiennes', consiste ? estimer les matrices inverses des matrices de covariance dans l'hypoth?se o? celles-ci sont parcimonieuses. Nous adaptons la m?thode du lasso graphique de [Friedman et al., 2007] sur une composante dans le cas d'un m?lange et nous ?valuons exp?rimentalement cette m?thode. Les deux autres m?thodes abordent le probl?me d'estimation du nombre de clusters dans le m?lange. La premi?re est une estimation p?nalis?e de la matrice des probabilit?s post?rieures dont la composante (i,j) est la probabilit? que la i-?me observation soit dans le j-?me cluster. Malheureusement, cette m?thode s'est av?r?e trop co?teuse en complexit?. Enfin, la deuxi?me m?thode consid?r?e consiste ? p?naliser le vecteur de poids afin de le rendre parcimonieux. Cette m?thode montre des r?sultats prometteurs. Dans le Chapitre 3, nous ?tudions l'estimateur du maximum de vraisemblance d'une densit? de n observations i.i.d. sous l?hypoth?se qu'elle est bien approxim?e par un m?lange de plusieurs densit?s donn?es. Nous nous int?ressons aux performances de l'estimateur par rapport ? la perte de Kullback-Leibler. Nous ?tablissons des bornes de risque sous la forme d'in?galit?s d'oracle exactes, que ce soit en probabilit? ou en esp?rance. Nous d?montrons ? travers ces bornes que, dans le cas du probl?me d?agr?gation convexe, l'estimateur du maximum de vraisemblance atteint la vitesse (log K)/n)^{1/2}, qui est optimale ? un terme logarithmique pr?s, lorsque le nombre de composant est plus grand que n^{1/2}. Plus important, sous l?hypoth?se suppl?mentaire que la matrice de Gram des composantes du dictionnaire satisfait la condition de compatibilit?, les in?galit?s d'oracles obtenues donnent la vitesse optimale dans le sc?nario parcimonieux. En d'autres termes, si le vecteur de poids est (presque) D-parcimonieux, nous obtenons une vitesse (Dlog K)/n. En compl?ment de ces in?galit?s d'oracle, nous introduisons la notion d?agr?gation (presque)-D-parcimonieuse et ?tablissons pour ce type d?agr?gation les bornes inf?rieures correspondantes. Enfin, dans le Chapitre 4, nous proposons un algorithme qui r?alise l'agr?gation en Kullback-Leibler de composantes d'un dictionnaire telle qu'?tudi?e dans le Chapitre 3. Nous comparons sa performance avec diff?rentes m?thodes. Nous proposons ensuite une m?thode pour construire le dictionnaire de densit?s et l??tudions de mani?re num?rique. Cette th?se a ?t? effectu? dans le cadre d?une convention CIFRE avec l?entreprise ARTEFACT.
  • Modélisation des interactions génomiques spatiales avec le modèle de Hawkes.

    Anna BONNET, Vincent RIVOIRARD, Franck PICARD
    2017
    Pas de résumé disponible.
  • Sélection de l'estimateur : une nouvelle méthode avec des applications à l'estimation de la densité du noyau.

    Claire LACOUR, Pascal MASSART, Vincent RIVOIRARD
    Sankhya A | 2017
    Le choix de l'estimateur est devenu une question cruciale dans l'estimation non paramétrique. Deux méthodes largement utilisées sont la minimisation du risque empirique pénalisé (comme l'estimation de la log-vraisemblance pénalisée) ou la comparaison par paire (comme la méthode de Lepski). Notre objectif dans cet article est double. Tout d'abord, nous expliquons quelques idées générales sur la question de la calibration des méthodes de sélection d'estimateurs. Nous passons en revue certains résultats connus, en mettant l'accent sur le concept de pénalité minimale qui est utile pour concevoir des critères de sélection basés sur les données. Ensuite, nous présentons une nouvelle méthode de sélection de la largeur de bande dans le cadre de l'estimation de la densité de noyau, qui est en quelque sorte intermédiaire entre les deux principales méthodes mentionnées ci-dessus. Nous fournissons quelques résultats théoriques qui conduisent à une stratégie de sélection entièrement basée sur les données.
  • Taux de concentration a posteriori pour les processus de comptage avec des intensités multiplicatives d'Aalen.

    Sophie DONNET, Vincent RIVOIRARD, Judith ROUSSEAU, Catia SCRICCIOLO
    Bayesian Analysis | 2017
    Nous fournissons des conditions générales pour dériver les taux de concentration postérieurs pour les processus de comptage d'Aalen. Les conditions sont conçues pour ressembler à celles proposées dans la littérature pour le problème de l'estimation de la densité, de sorte que les résultats existants sur l'estimation de la densité peuvent être adaptés au présent cadre. Nous appliquons le théorème général à certains modèles a priori, y compris les mélanges de processus de Dirichlet de densités uniformes pour estimer les intensités monotones non croissantes et les log-splines.
  • Reconstruction de la connectivité fonctionnelle de trains de pointes multiples par des modèles de Hawkes.

    Regis LAMBERT, Christine TULEAU MALOT, Thomas BESSAIH, Vincent RIVOIRARD, Yann BOURET, Nathalie LERESCHE, Patricia REYNAUD BOURET
    2017
    Contexte : Les modèles statistiques qui prédisent l'apparition de pics de neurones à partir de l'activité de pics antérieure de l'ensemble du réseau enregistré sont des outils prometteurs pour reconstruire les graphes de connectivité fonctionnelle. Certaines des méthodes utilisées précédemment s'inscrivaient dans le cadre statistique général des processus de Hawkes multivariés, mais elles nécessitaient souvent une grande quantité de données, une connaissance préalable du réseau enregistré et pouvaient générer des modèles non stationnaires qui ne pouvaient pas être utilisés directement en simulation. Nouvelle méthode : Ici, nous présentons une méthode, basée sur les estimateurs des moindres carrés et les critères de pénalité LASSO, optimisant les modèles de Hawkes qui peuvent être utilisés pour la simulation. Résultats : L'application de notre méthode à plusieurs modèles Integrate and Fire de réseaux de neurones a montré qu'elle détecte efficacement les connexions excitatrices et inhibitrices. Les quelques erreurs qui se sont produites occasionnellement avec des réseaux complexes, y compris les entrées communes, les connexions faibles et enchaînées, ont pu être facilement écartées sur la base de critères objectifs. Conclusions : La présente méthode est robuste, stable, applicable avec une quantité de données expérimentalement réaliste, et ne nécessite aucune connaissance préalable du réseau étudié. Elle peut donc être utilisée sur un ordinateur personnel comme une procédure clé en main pour déduire les graphes de connectivité et générer des modèles de simulation à partir d'enregistrements simultanés de trains de pointes.
  • Apprentissage statistique pour s?quences d??v?nements ? l?aide de processus ponctuels.

    Massil ACHAB, Emmanuel BACRY, St?phane GA?FFAS, Nicolas VAYATIS, Emmanuel BACRY, St?phane GA?FFAS, Vincent RIVOIRARD, Manuel GOMEZ RODRIGUEZ, Nils richard HANSEN
    2017
    Le but de cette th?se est de montrer que l'arsenal des nouvelles m?thodes d'optimisation permet de r?soudre des probl?mes d'estimation difficile bas?s sur les mod?les d'?v?nements.Alors que le cadre classique de l'apprentissage supervis? traite les observations comme une collection de couples de covariables et de label, les mod?les d'?v?nements ne regardent que les temps d'arriv?e d'?v?nements et cherchent alors ? extraire de l'information sur la source de donn?e.Ces ?v?nements dat?s sont ordonn?s de fa?on chronologique et ne peuvent d?s lors ?tre consid?r?s comme ind?pendants.Ce simple fait justifie l'usage d'un outil math?matique particulier appel? processus ponctuel pour apprendre une certaine structure ? partir de ces ?v?nements.Deux exemples de processus ponctuels sont ?tudi?s dans cette th?se.Le premier est le processus ponctuel derri?re le mod?le de Cox ? risques proportionnels:son intensit? conditionnelle permet de d?finir le ratio de risque, une quantit? fondamentale dans la litt?rature de l'analyse de survie.Le mod?le de r?gression de Cox relie la dur?e avant l'apparition d'un ?v?nement, appel? d?faillance, aux covariables d'un individu.Ce mod?le peut ?tre reformul? ? l'aide du cadre des processus ponctuels.Le second est le processus de Hawkes qui mod?lise l'impact des ?v?nements pass?s sur la probabilit? d'apparition d'?v?nements futurs.Le cas multivari? permet d'encoder une notion de causalit? entre les diff?rentes dimensions consid?r?es.Cette th?se est divis?e en trois parties.La premi?re s'int?resse ? un nouvel algorithme d'optimisation que nous avons d?velopp?.Il permet d'estimer le vecteur de param?tre de la r?gression de Cox lorsque le nombre d'observations est tr?s important.Notre algorithme est bas? sur l'algorithme SVRG (Stochastic Variance Reduced Gradient) et utilise une m?thode MCMC (Monte Carlo Markov Chain) pour approcher un terme de la direction de descente.Nous avons prouv? des vitesses de convergence pour notre algorithme et avons montr? sa performance num?rique sur des jeux de donn?es simul?s et issus de monde r?el.La deuxi?me partie montre que la causalit? au sens de Hawkes peut ?tre estim?e de mani?re non-param?trique gr?ce aux cumulants int?gr?s du processus ponctuel multivari?.Nous avons d?velopper deux m?thodes d'estimation des int?grales des noyaux du processus de Hawkes, sans faire d'hypoth?se sur la forme de ces noyaux. Nos m?thodes sont plus rapides et plus robustes, vis-?-vis de la forme des noyaux, par rapport ? l'?tat de l'art. Nous avons d?montr? la consistence statistique de la premi?re m?thode, et avons montr? que la deuxi?me peut ?tre r?duite ? un probl?me d'optimisation convexe.La derni?re partie met en lumi?re les dynamiques de carnet d'ordre gr?ce ? la premi?re m?thode d'estimation non-param?trique introduite dans la partie pr?c?dente.Nous avons utilis? des donn?es du march? ? terme EUREX, d?fini de nouveaux mod?les de carnet d'ordre (bas?s sur les pr?c?dents travaux de Bacry et al.) et appliqu? la m?thode d'estimation sur ces processus ponctuels.Les r?sultats obtenus sont tr?s satisfaisants et coh?rents avec une analys? ?conom?trique.Un tel travail prouve que la m?thode que nous avons d?velopp? permet d'extraire une structure ? partir de donn?es aussi complexes que celles issues de la finance haute-fr?quence.
  • Estimation adaptative ponctuelle de la fonction de densité conditionnelle.

    Karine BERTIN, Claire LACOUR, Vincent RIVOIRARD
    Annales de l'Institut Henri Poincaré | 2016
    Dans cet article, nous considérons le problème de l'estimation de $f$, la densité conditionnelle de $Y$ étant donné $X$, en utilisant un échantillon indépendant distribué comme $(X,Y)$ dans un cadre multivarié. Nous considérons l'estimation de $f(x,.)$ où $x$ est un point fixe. Nous définissons deux procédures d'estimation différentes, la première utilisant les règles du noyau, la seconde s'inspirant des méthodes de projection. Les deux estimateurs adaptés sont accordés en utilisant la méthodologie de Goldenshluger et Lepski. Après avoir dérivé des bornes inférieures, nous montrons que ces procédures satisfont des inégalités d'oracle et sont optimales du point de vue minimax sur des boules de Hölder anisotropes. De plus, nos résultats nous permettent de mesurer précisément l'influence de $\mathrm{f}_X(x)$ sur les taux de convergence, où $\mathrm{f}_X$ est la densité de $X$. Enfin, quelques simulations illustrent le bon comportement de nos estimations accordées en pratique.
  • Complétion de matrices : aspects statistiques et computationnels.

    Jean LAFOND, Eric MOULINES, Joseph SALMON, Stephan CLEMENCON, Eric MOULINES, Olga KLOPP, Anatoli JUDITSKY, Vincent RIVOIRARD
    2016
    Dans cette thèse nous nous intéressons aux méthodes de complétion de matrices de faible rang et étudions certains problèmes reliés. Un premier ensemble de résultats visent à étendre les garanties statistiques existantes pour les modèles de complétion avec bruit additif sous-gaussiens à des distributions plus générales. Nous considérons en particulier les distributions multinationales et les distributions appartenant à la famille exponentielle. Pour ces dernières, nous prouvons l'optimalité (au sens minimax) à un facteur logarithmique près des estimateurs à pénalité norme trace. Un second ensemble de résultats concernent l'algorithme du gradient conditionnel qui est notamment utilisé pour calculer les estimateurs précédents. Nous considérons en particulier deux algorithmes de type gradient conditionnel dans le cadre de l'optimisation stochastique. Nous donnons les conditions sous lesquelles ces algorithmes atteignent les performance des algorithmes de type gradient projeté.
  • Lasso adaptatif et groupe-Lasso pour la régression fonctionnelle de Poisson.

    Stephane IVANOFF, Franck PICARD, Vincent RIVOIRARD
    Journal of Machine Learning Research | 2016
    La régression de Poisson à haute dimension est devenue un cadre standard pour l'analyse d'ensembles de données de comptage massifs. Dans ce travail, nous estimons la fonction d'intensité du modèle de régression de Poisson en utilisant une approche par dictionnaire, qui généralise l'approche classique par base, combinée avec une procédure Lasso ou un groupe de Lasso. La sélection dépend des poids de pénalité qui doivent être calibrés. Les méthodologies standard développées dans le cadre gaussien ne peuvent pas être appliquées directement aux modèles de Poisson en raison de l'hétéroscédasticité. Ici, nous fournissons des poids basés sur les données pour le Lasso et le groupe-Lasso dérivés des inégalités de concentration adaptées au cas de Poisson. Nous montrons que les procédures Lasso et group-Lasso associées satisfont les inégalités d'oracle rapides et lentes. Des simulations sont utilisées pour évaluer la performance empirique de notre procédure, et une application originale à l'analyse des données de séquençage de nouvelle génération est fournie.
  • Estimation adaptative pour des problèmes inverses avec des applications à la division cellulaire.

    Van ha HOANG, Thanh mai PHAM NGOC, Vincent RIVOIRARD, Viet chi TRAN
    2016
    Cette thèse se divise en deux parties indépendantes. Dans la première, nous considérons un modèle stochastique individu-centré en temps continu décrivant une population structurée par la taille. La population est représentée par une mesure ponctuelle évoluant suivant un processus aléatoire déterministe par morceaux. Nous étudions ici l'estimation non-paramétrique du noyau régissant les divisions, sous deux schémas d'observation différents. Premièrement, dans le cas où nous obtenons l'arbre entier des divisions, nous construisons un estimateur à noyau avec une sélection adaptative de fenêtre dépendante des données. Nous obtenons une inégalité oracle et des vitesses de convergence exponentielles optimales. Deuxièmement, dans le cas où l'arbre de division n'est pas complètement observé, nous montrons que le processus microscopique renormalisé décrivant l'évolution de la population converge vers la solution faible d'une équation aux dérivés partielles. Nous proposons un estimateur du noyau de division en utilisant des techniques de Fourier. Nous montrons la consistance de l'estimateur. Dans la seconde partie, nous considérons le modèle de régression non-paramétrique avec erreurs sur les variables dans le contexte multidimensionnel. Notre objectif est d'estimer la fonction de régression multivariée inconnue. Nous proposons un estimateur adaptatif basé sur des noyaux de projection fondés sur une base d'ondelettes multi-index et sur un opérateur de déconvolution. Le niveau de résolution des ondelettes est obtenu par la méthode de Goldenshluger-Lepski. Nous obtenons une inégalité oracle et des vitesses de convergence optimales sur les espaces de Hölder anisotropes.
  • Analyse de la localisation des éléments de régulation de la transcription génomique par le biais du lasso pondéré de poisson.

    Xin JIANG, Patricia REYNAUD BOURET, Vincent RIVOIRARD, Laure SANSONNET, Rebecca WILLETT
    2016 IEEE Statistical Signal Processing Workshop (SSP) | 2016
    Les distances entre les éléments régulateurs de transcription (TRE) de l'ADN fournissent des indices importants sur leurs dépendances et leur fonction dans le processus de régulation des gènes. Cependant, les emplacements de ces TRE ainsi que leurs distances croisées entre les occurrences sont stochastiques, en partie à cause des limitations inhérentes aux méthodes de séquençage de nouvelle génération utilisées pour les localiser, en partie à cause de la biologie elle-même. Cet article décrit une nouvelle approche de l'analyse de ces localisations et de leurs distances croisées, même à longue distance, via une convolution aléatoire de Poisson. Le problème de déconvolution qui en résulte est mal posé, et la régularisation de la sparsité est utilisée pour compenser ce défi. Contrairement aux travaux précédents sur les problèmes inverses de Poisson clairsemés, cet article adopte un estimateur LASSO pondéré avec des poids dépendant des données calculés à l'aide d'inégalités de concentration qui tiennent compte du bruit de Poisson. Cette méthode présente une meilleure erreur quadratique que le LASSO classique (non pondéré), à la fois dans les limites de performance théoriques et dans les études de simulation, et peut être facilement calculée à l'aide de solveurs LASSO standard.
  • Validation croisée et pénalisation pour l'estimation de densité.

    Nelo MAGALHAES, Lucien BIRGE, Pascal MASSART, Yannick BARAUD, Lucien BIRGE, Pascal MASSART, Yannick BARAUD, Vincent RIVOIRARD, Nicolas VAYATIS, Guillaume LECUE, Vincent RIVOIRARD, Nicolas VAYATIS
    2015
    Cette thèse s'inscrit dans le cadre de l'estimation d'une densité, considéré du point de vue non-paramétrique et non-asymptotique. Elle traite du problème de la sélection d'une méthode d'estimation à noyau. Celui-ci est une généralisation, entre autre, du problème de la sélection de modèle et de la sélection d'une fenêtre. Nous étudions des procédures classiques, par pénalisation et par rééchantillonnage (en particulier la validation croisée V-fold), qui évaluent la qualité d'une méthode en estimant son risque. Nous proposons, grâce à des inégalités de concentration, une méthode pour calibrer la pénalité de façon optimale pour sélectionner un estimateur linéaire et prouvons des inégalités d'oracle et des propriétés d'adaptation pour ces procédures. De plus, une nouvelle procédure rééchantillonnée, reposant sur la comparaison entre estimateurs par des tests robustes, est proposée comme alternative aux procédures basées sur le principe d'estimation sans biais du risque. Un second objectif est la comparaison de toutes ces procédures du point de vue théorique et l'analyse du rôle du paramètre V pour les pénalités V-fold. Nous validons les résultats théoriques par des études de simulations.
  • Estimation bayésienne non paramétrique pour processus de Hawkes multidimensionnels.

    Sophie DONNET, Vincent RIVOIRARD, Judith ROUSSEAU
    Congrés SMAI 2015 | 2015
    Estimation bayésienne non paramétrique pour processus de Hawkes multidimensionnels. Congrés SMAI 2015.
  • Lasso et inégalités probabilistes pour les processus ponctuels multivariés.

    Niels richard HANSEN, Patricia REYNAUD BOURET, Vincent RIVOIRARD
    Bernoulli | 2015
    En raison de son faible coût de calcul, le Lasso est une méthode de régularisation attrayante pour les contextes statistiques à haute dimension. Dans cet article, nous considérons des processus de comptage multivariés dépendant d'un paramètre de fonction inconnu à estimer par des combinaisons linéaires d'un dictionnaire fixe. Pour sélectionner les coefficients, nous proposons une méthode de pénalisation adaptative de type $\ell_1$, où les poids de la pénalité basés sur les données sont dérivés de nouvelles inégalités de type Bernstein pour les martingales. Les inégalités d'Oracle sont établies sous des hypothèses sur la matrice de Gram du dictionnaire. Des résultats probabilistes non asymptotiques pour les processus de Hawkes multivariés sont prouvés, ce qui nous permet de vérifier ces hypothèses en considérant des dictionnaires généraux basés sur des histogrammes, des bases de Fourier ou d'ondelettes. Motivés par des problèmes d'inférence d'activité neuronale, nous réalisons finalement une étude de simulation pour les processus de Hawkes multivariés et comparons notre méthodologie avec la {\procédure Lasso adaptative} proposée par Zou dans \cite{Zou}. Nous observons un excellent comportement de notre procédure. Nous nous appuyons sur des aspects théoriques pour la question essentielle du réglage de notre méthodologie. Contrairement au Lasso adaptatif de \cite{Zou}, notre procédure de réglage s'avère robuste par rapport à tous les paramètres du problème, révélant son potentiel pour des utilisations concrètes, notamment en neurosciences.
  • Un LASSO pondéré en fonction des données sous un bruit de Poisson.

    Xin JIANG, Patricia REYNAUD BOURET, Vincent RIVOIRARD, Laure SANSONNET, Rebecca WILLETT
    2015
    Les problèmes inverses linéaires épars apparaissent dans une variété de contextes, mais souvent le bruit contaminant les observations ne peut pas être décrit avec précision comme étant limité par ou provenant d'une distribution gaussienne. Les observations de Poisson, en particulier, sont une caractéristique de plusieurs applications du monde réel. Les travaux précédents sur les problèmes inverses de Poisson clairsemés ont rencontré plusieurs obstacles techniques limitatifs. Cet article décrit une nouvelle approche d'analyse alternative pour les problèmes inverses de Poisson clairsemés qui (a) contourne les défis techniques présents dans les travaux précédents, (b) admet des estimateurs qui peuvent être facilement calculés à l'aide d'algorithmes LASSO standard, et (c) laisse entrevoir un cadre LASSO pondéré général pour de larges classes de problèmes. Au cœur de cette nouvelle approche se trouve un estimateur LASSO pondéré pour lequel les pondérations dépendantes des données sont basées sur les inégalités de concentration de Pois-son. Contrairement aux analyses précédentes du LASSO pondéré, l'analyse proposée dépend de conditions qui peuvent être vérifiées ou dont on peut montrer qu'elles tiennent dans des cadres généraux avec une forte probabilité.
  • Estimation bayésienne non-paramétrique pour les processus de Hawkes.

    Sophie DONNET, Vincent RIVOIRARD
    47. Journées de Statistique de la SFdS | 2015
    Les processus de Hawkes multidimensionnels sont utilisés pour la modélisation des potentiels d'actions neuronaux. L'estimation des fonctions d'intensité permet de comprendre la structure d'interactions des neurones. L'estimation non-paramétrique de ces fonctions a été proposée par des méthodes de type LASSO dans un cadre fréquentiste. Nous nous intéressons à leur estimation non-paramétrique dans un cadre bayésien. Pour cela, nous mettons en place des algorithmes du type Sequential Monte Carlo Sampler, particulièrement adaptés à ces processus ponctuels. Multidimensional Hawkes processus are used to modelise multivariate neuron spike data.
  • Estimation bayésienne non paramétrique pour les processus de Hawkes.

    Sophie DONNET, Judith ROUSSEAU, Vincent RIVOIRARD
    International Society for Bayesian Analysis World Meeting, ISBA 2014 | 2014
    Estimation bayésienne non paramétrique pour les processus de Hawkes. Réunion mondiale de la société internationale pour l'analyse bayésienne, ISBA 2014.
  • Propriétés fréquentistes des méthodes Bayésiennes semi-paramétriques et non paramétriques.

    Jean bernard SALOMOND, Judith ROUSSEAU, Vincent RIVOIRARD
    2014
    La recherche sur les méthodes bayésiennes non-paramétriques connaît un essor considérable depuis les vingt dernières années notamment depuis le développement d'algorithmes de simulation permettant leur mise en pratique. Il est donc nécessaire de comprendre, d'un point de vue théorique, le comportement de ces méthodes. Cette thèse présente différentes contributions à l'analyse des propriétés fréquentistes des méthodes bayésiennes non-paramétriques. Si se placer dans un cadre asymptotique peut paraître restrictif de prime abord, cela permet néanmoins d'appréhender le fonctionnement des procédures bayésiennes dans des modèles extrêmement complexes. Cela permet notamment de détecter les aspects de l'a priori particulièrement influents sur l’inférence. De nombreux résultats généraux ont été obtenus dans ce cadre, cependant au fur et à mesure que les modèles deviennent de plus en plus complexes, de plus en plus réalistes, ces derniers s'écartent des hypothèses classiques et ne sont plus couverts par la théorie existante. Outre l'intérêt intrinsèque de l'étude d'un modèle spécifique ne satisfaisant pas les hypothèses classiques, cela permet aussi de mieux comprendre les mécanismes qui gouvernent le fonctionnement des méthodes bayésiennes non-paramétriques.
  • Taux de concentration postérieurs pour les procédures empiriques de Bayes, avec des applications aux mélanges de processus de Dirichlet.

    Sophie DONNET, Vincent RIVOIRARD, Judith ROUSSEAU, Catia SCRICCIOLO
    2014
    Dans cet article, nous fournissons des conditions générales à vérifier sur le modèle et le prieur pour dériver les taux de concentration postérieurs pour les prieurs dépendants des données (ou les approches empiriques de Bayes). Nous cherchons à fournir des conditions qui sont proches des conditions fournies dans l'article fondateur de Ghosal & van der Vaart (2007). Nous appliquons ensuite le théorème général à deux contextes différents : l'estimation d'une densité à l'aide de mélanges de processus de Dirichlet de variables aléatoires gaussiennes dont la mesure de base dépend de certaines quantités empiriques et l'estimation de l'intensité d'un processus de comptage sous le modèle d'Aalen. Une étude de simulation pour des processus de Poisson inhomogènes illustre également nos résultats. Dans le premier cas, nous obtenons également des résultats sur l'estimation de la densité de mélange et sur le problème de la déconvolution. Dans le second cas, nous fournissons un théorème général sur les taux de concentration postérieurs pour les processus de comptage avec intensité multiplicative de Aalen avec des prieurs ne dépendant pas des données.
  • Tests de qualité d'ajustement et estimation adaptative non paramétrique pour l'analyse des trains d'épis.

    Patricia REYNAUD BOURET, Vincent RIVOIRARD, Franck GRAMMONT, Christine TULEAU MALOT
    The Journal of Mathematical Neuroscience | 2014
    Dans le cadre de l'analyse classique des trains de pointes, le praticien effectue souvent des tests d'adéquation pour vérifier si le processus observé est un processus de Poisson, par exemple, ou s'il obéit à un autre type de modèle probabiliste. Ce faisant, il y a une étape fondamentale de branchement, où les paramètres du modèle sous-jacent supposé sont estimés. L'objectif de cet article est de montrer que le plug-in a parfois des effets très indésirables. Nous proposons une nouvelle méthode basée sur le sous-échantillonnage pour traiter ces problèmes de plug-in dans le cas du test d'uniformité de Kolmogorov-Smirnov. La méthode repose sur l'intégration de bonnes estimations du modèle sous-jacent, qui doivent être compatibles avec un taux de convergence contrôlé. Certaines estimations non paramétriques satisfaisant ces contraintes dans le cadre de Poisson ou de Hawkes sont mises en évidence. De plus, elles partagent des propriétés adaptatives qui sont utiles d'un point de vue pratique. Nous montrons la performance de ces méthodes sur des données simulées. Nous fournissons également une analyse complète avec ces outils sur l'activité mono-unitaire enregistrée sur un singe pendant une tâche sensori-motrice.
  • Tests de qualité d'ajustement et estimation adaptative non paramétrique pour l'analyse des trains d'épis.

    Patricia REYNAUD BOURET, Vincent RIVOIRARD, Franck GRAMMONT, Christine TULEAU MALOT
    Journal of Mathematical Neuroscience | 2014
    Lorsqu'il s'agit d'une analyse classique de trains de pointes, le praticien effectue souvent des tests d'adéquation pour vérifier si le processus observé est un processus de Poisson, par exemple, ou s'il obéit à un autre type de modèle probabiliste (Yana et al. in Bio-phys. Ce faisant, il y a une étape fondamentale de plug-in, où les paramètres du modèle sous-jacent supposé sont estimés. L'objectif de cet article est de montrer que le plug-in a parfois des effets très indésirables. Nous proposons une nouvelle méthode basée sur le sous-échantillonnage pour traiter ces problèmes de plug-in dans le cas du test d'uniformité de Kolmogorov-Smirnov. La méthode repose sur l'intégration de bonnes estimations du modèle sous-jacent qui doivent être compatibles avec un taux de convergence contrôlé. Certaines estimations non paramétriques satisfaisant ces contraintes dans le cadre de Poisson ou de Hawkes sont mises en évidence. De plus, elles partagent des propriétés adaptatives qui sont utiles d'un point de vue pratique. Nous montrons la performance de ces méthodes sur des données simulées. Nous fournissons également une analyse complète avec ces outils sur l'activité mono-unitaire enregistrée sur un singe pendant une tâche sensori-motrice. Matériel supplémentaire électronique La version en ligne de cet article (doi:10.1186/2190-8567-4-3) contient du matériel supplémentaire.
  • Taux de concentration postérieurs pour les procédures empiriques de Bayes, avec des applications aux mélanges de processus de Dirichlet. Matériel supplémentaire.

    Sophie DONNET, Judith ROUSSEAU, Vincent RIVOIRARD, Catia SCRICCIOLO
    2014
    Dans cet article, nous fournissons des conditions générales à vérifier sur le modèle et le prieur pour dériver les taux de concentration postérieurs pour les prieurs dépendants des données (ou les approches empiriques de Bayes). Nous cherchons à fournir des conditions qui sont proches des conditions fournies dans l'article fondateur de \citet{ghosal:vdv:07}. Nous appliquons ensuite le théorème général à deux contextes différents : l'estimation d'une densité à l'aide de mélanges de processus de Dirichlet de variables aléatoires gaussiennes dont la mesure de base dépend de certaines quantités empiriques et l'estimation de l'intensité d'un processus de comptage sous le modèle d'Aalen. Une étude de simulation pour des processus de Poisson inhomogènes illustre également nos résultats. Dans le premier cas, nous dérivons également quelques résultats sur l'estimation de la densité de mélange et sur le problème de déconvolution. Dans le second cas, nous fournissons un théorème général sur les taux de concentration postérieurs pour les processus de comptage à intensité multiplicative d'Aalen avec des prieurs ne dépendant pas des données. Dans ce fichier supplémentaire, nous présentons l'algorithme de Gibbs utilisé dans l'exemple numérique.
  • Inférence de la connectivité fonctionnelle en neurosciences via les processus de Hawkes.

    Patricia REYNAUD BOURET, Vincent RIVOIRARD, Christine TULEAU MALOT
    2013 IEEE Global Conference on Signal and Information Processing | 2013
    Nous utilisons les processus de Hawkes comme modèles pour l'analyse des trains de pointes. Une nouvelle méthode Lasso conçue pour les processus de comptage multivariés généraux nous permet d'estimer le graphe de connectivité fonctionnelle entre les différents neurones enregistrés.
  • L'approche par dictionnaire pour la déconvolution sphérique.

    Thanh mai PHAM NGOC, Vincent RIVOIRARD
    Journal of Multivariate Analysis | 2013
    Nous considérons le problème de l'estimation d'une densité de probabilité à partir de données indirectes dans le modèle de convolution sphérique. Nous visons à construire une estimation de la densité inconnue comme une combinaison linéaire de fonctions d'un dictionnaire surcomplet. La procédure est conçue à travers un critère l1-pénalisé bien calibré. Le cadre de la déconvolution sphérique a été très peu étudié jusqu'à présent, et les deux principales approches de ce problème, à savoir le SVD et le seuillage dur, ne considéraient qu'une base à la fois. L'approche par dictionnaire permet de combiner plusieurs bases et améliore ainsi la sparsité des estimations. Nous fournissons une inégalité d'oracle sous des hypothèses de cohérence globale. De plus, la procédure calibrée que nous proposons donne des résultats très satisfaisants dans l'étude numérique par rapport aux autres procédures.
  • Estimateurs de type LASSO pour l'estimation de modèles à effets mixtes non linéaires semiparamétriques.

    Ana ARRIBAS GIL, Karine BERTIN, Cristian MEZA, Vincent RIVOIRARD
    Statistics and Computing | 2013
    Les modèles paramétriques non linéaires à effets mixtes (NLME) sont maintenant largement utilisés dans les études biométriques, en particulier dans la recherche pharmacocinétique et les modèles de dynamique du VIH, en raison, entre autres, des progrès informatiques réalisés au cours des dernières années. Cependant, ce type de modèles peut ne pas être assez flexible pour l'analyse de données longitudinales complexes. Les NLME semi-paramétriques (SNMMs) ont été proposés comme une extension des NLMEs. Ces modèles sont un bon compromis et conservent les caractéristiques intéressantes des modèles paramétriques et non paramétriques, ce qui permet d'obtenir des modèles plus flexibles que les NLME paramétriques standard. Cependant, les SNMMs sont des modèles complexes pour lesquels l'estimation reste un défi. Les procédures d'estimation précédentes sont basées sur une combinaison de méthodes d'approximation de la log-vraisemblance pour l'estimation paramétrique et de techniques de splines de lissage pour l'estimation non-paramétrique. Dans ce travail, nous proposons de nouvelles stratégies d'estimation dans les SNMMs. D'une part, nous utilisons la version d'approximation stochastique de l'algorithme EM (SAEM) pour obtenir des estimations exactes ML et REML des effets fixes et vari-Ana Arribas-Gil est soutenue par les projets MTM2010-17323 et ECO2011-25706, Espagne. Karine Bertin est soutenue par les projets FONDECYT 1090285 et ECOS/CONICYT C10E03 2010, Chili. Cristian Meza est soutenu par le projet FONDECYT 11090024, Chili.
  • Tests d'adéquation pour les processus de Poisson et les processus de Hawkes.

    Christine MALOT, Patricia REYNAUD BOURET, Vincent RIVOIRARD, Franck GRAMMONT
    45ème journées de Statistique | 2013
    En neurosciences, le principal objet d'étude est le train de spike car il est considéré comme le vecteur principal de transmission de l'information de l'activité cérébrale. Au fil des différentes études, plusieurs modélisations pour les trains de spikes ont été proposées, plus pour des raisons biologiques que mathématiques. Nous proposons ici des procédures statistiques permettant de tester les diverses modélisations.
  • Inférence de la connectivité fonctionnelle en neurosciences via les processus de Hawkes.

    Patricia REYNAUD BOURET, Vincent RIVOIRARD, Christine TULEAU MALOT
    1st IEEE Global Conference on Signal and Information Processing | 2013
    Nous utilisons les processus de Hawkes comme modèles pour l'analyse des trains de pointes. Une nouvelle méthode Lasso conçue pour les processus de comptage multivariés généraux nous permet d'estimer le graphe de connectivité fonctionnelle entre les différents neurones enregistrés.
  • L'approche par dictionnaire pour la déconvolution sphérique.

    Thanh mai PHAM NGOC, Vincent RIVOIRARD
    Journal of Multivariate Analysis | 2013
    Nous considérons le problème de l'estimation d'une densité de probabilité à partir de données indirectes dans le modèle de convolution sphérique. Nous visons à construire une estimation de la densité inconnue comme une combinaison linéaire de fonctions d'un dictionnaire surcomplet. La procédure est conçue à travers un critère l1-pénalisé bien calibré. Le cadre de la déconvolution sphérique a été très peu étudié jusqu'à présent, et les deux principales approches de ce problème, à savoir le SVD et le seuillage dur, ne considéraient qu'une base à la fois. L'approche par dictionnaire permet de combiner plusieurs bases et améliore ainsi la sparsité des estimations. Nous fournissons une inégalité d'oracle sous des hypothèses de cohérence globale. De plus, la procédure calibrée que nous proposons donne des résultats très satisfaisants dans l'étude numérique par rapport aux autres procédures.
  • Estimation bayésienne non paramétrique.

    Vincent RIVOIRARD
    2002
    Dans le cadre d'une analyse par ondelettes, nous nous intéressons à l'étude statistique d'une classe particulière d'espaces de Lorentz : les espaces de Besov faibles qui apparaissent naturellement dans le contexte de la théorie maxiset. Avec des hypothèses de type "bruit blanc gaussien", nous montrons, grâce à des techniques bayésiennes, que les vitesses minimax des espaces de Besov forts ou faibles sont les mêmes. Les distributions les plus défavorables que nous exhibons pour chaque espace de Besov faible sont construites à partir des lois de Pareto et diffèrent en cela de celles des espaces de Besov forts. Grâce aux simulations de ces distributions, nous construisons des représentations visuelles des "ennemis typiques". Enfin, nous exploitons ces distributions pour bâtir une procédure d'estimation minimax, de type "seuillage" appelée ParetoThresh, que nous étudions d'un point de vue pratique. Dans un deuxième temps, nous nous plaçons sous le modèle hétéroscédastique de bruit blanc gaussien et sous l'approche maxiset, nous établissons la sous-optimalité des estimateurs linéaires par rapport aux procédures adaptatives de type "seuillage". Puis, nous nous interrogeons sur la meilleure façon de modéliser le caractère "sparse" d'une suite à travers une approche bayésienne. À cet effet, nous étudions les maxisets des estimateurs bayésiens classiques - médiane, moyenne - associés à une modélisation construite sur des densités à queues lourdes. Les espaces maximaux pour ces estimateurs sont des espaces de Lorentz, et coïncident avec ceux associés aux estimateurs de type "seuillage". Nous prolongeons de manière naturelle ce résultat en obtenant une condition nécessaire et suffisante sur les paramètres du modèle pour que la loi a priori se concentre presque sûrement sur un espace de Lorentz précis.
  • Estimation bayésienne non paramétrique.

    Vincent RIVOIRARD, Dominique PICARD
    2002
    Pas de résumé disponible.
Les affiliations sont détectées à partir des signatures des publications identifiées dans scanR. Un auteur peut donc apparaître affilié à plusieurs structures ou tutelles en fonction de ces signatures. Les dates affichées correspondent seulement aux dates des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr