HOFFMANN Marc

< Retour à ILB Patrimoine
Thématiques des productions
Affiliations
  • 2020 - 2021
    Modelling and analysis for médical and biological applications
  • 2012 - 2021
    Centre de recherches en mathématiques de la décision
  • 1995 - 1996
    Université Paris Diderot
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2010
  • 2007
  • 2005
  • 1996
  • Approches individuelles et populationnelles pour calibrer les taux de division dans la dynamique des populations : Application au cycle cellulaire bactérien.

    Marie DOUMIC, Marc HOFFMANN
    2021
    La modélisation, l'analyse et l'inférence des mécanismes de déclenchement dans la reproduction des populations sont fondamentales dans de nombreuses applications biologiques. Il s'agit également d'un domaine de recherche actif et croissant en biologie mathématique. Dans ce chapitre, nous passons en revue les principaux résultats développés au cours de la dernière décennie pour l'estimation du taux de division dans des populations en croissance et en division dans un environnement stable. Ces méthodes combinent des outils empruntés aux EDP et aux processus stochastiques, avec une certaine vision qui émerge de la statistique mathématique. Une focalisation sur l'application au cycle de division cellulaire bactérien fournit une présentation concrète, et peut aider le lecteur à identifier les nouveaux défis majeurs dans le domaine.
  • Modélisation et stratégies optimales sur les marchés énergétiques à court terme.

    Laura TINSI, Peter TANKOV, Arnak DALALYAN, Gilles PAGES, Peter TANKOV, Arnak DALALYAN, Gilles PAGES, Almut e. d. VERAART, Huyen PHAM, Olivier FERON, Marc HOFFMANN, Almut e. d. VERAART, Huyen PHAM
    2021
    Cette thèse vise à fournir des outils théoriques pour soutenir le développement et la gestion des énergies renouvelables intermittentes sur les marchés court terme de l'électricité.Dans la première partie, nous développons un modèle d'équilibre exploitable pour la formation des prix sur les marchés infrajournaliers de l'électricité. Pour cela, nous proposons un jeu non coopératif entre plusieurs producteurs interagissant sur le marché et faisant face à une production renouvelable intermittente. En utilisant la théorie des jeux et celle du contrôle stochastique, nous dérivons des stratégies optimales explicites pour ces producteurs ainsi qu'un prix d'équilibre en forme fermée pour différentes structures d'information et caractéristiques des joueurs. Notre modèle permet de reproduire et d'expliquer les principaux faits stylisés du marché intraday tels que la dépendance temporelle spécifique de la volatilité et la corrélation entre le prix et les prévisions de production renouvelable.Dans la deuxième partie, nous étudions des prévisions probabilistes dynamiques sous la forme de processus de diffusion. Nous proposons plusieurs modèles d'équations différentielles stochastiques pour capturer l'évolution dynamique de l'incertitude associée à une prévision, nous dérivons les densités prédictives associées et nous calibrons le modèle sur des données météorologiques réelles. Nous l'appliquons ensuite au problème d'un producteur éolien recevant des mises à jour séquentielles des prévisions probabilistes de la vitesse du vent, utilisées pour prédire sa production, et prendre des décisions d'achat ou de vente sur le marché. Nous montrons dans quelle mesure cette méthode peut être avantageuse comparée à l'utilisation de prévisions ponctuelles dans les processus décisionnels.Enfin, dans la dernière partie, nous proposons d'étudier les propriétésdes réseaux de neurones peu profonds agrégés. Nous explorons le cadre PAC-Bayesien comme alternative à l'approche classique de minimisation du risque empirique. Nous nous concentrons sur les priors Gaussiens et dérivons des bornes de risque non asymptotiques pour les réseaux de neurones agrégés. Ces bornes donnent des vitesses de convergence minimax pour l'estimation dans des espaces de Sobolev.Cette analyse fournit également une base théorique pour le réglage des paramètres et offre de nouvelles perspectives pour des applicationsdes réseaux de neurones agrégés à des problèmes pratiques de haute dimension, de plus en plus présents dans les processus de décision liés à l'énergie et impliquant des moyens de production renouvelable ou du stockage.
  • Modélisation et analyse statistique des données de trafic de latence sur Internet.

    Alexis FREMOND, Marc HOFFMANN, Gerard BIAU, Marc HOFFMANN, Gerard BIAU, Mathieu ROSENBAUM, Arnak s. DALALYAN, Vincent RIVOIRARD, Mathieu ROSENBAUM, Arnak s. DALALYAN
    2020
    La vitesse des échanges d'information dans le réseau Internet se mesure à l'aide de la latence: une durée mesurant le temps écoulé entre l'envoi du premier bit d'information d'une requête et la réception du premier bit d'information de la réponse. Dans cette thèse réalisée en collaboration avec la société Citrix, nous nous intéressons à l'étude et à la modélisation des données de latence dans un contexte d'optimisation de traffic Internet.Citrix collecte des données via deux canaux différents, générant des mesures de latence soupçonnées de partager des propriétés communes. Dans un premier temps, nous nous intéressons à un problème d'ajustement distributionnel où les co-variables et les réponses sont des mesures de probabilité images l'une de l'autre par un transport déterministe, et les observables des échantillons indépendants tirés selon ces lois. Nous proposons un estimateur de ce transport et démontrons ses propriétés de convergence. On montre que notre estimateur peut être utilisé pour faire correspondre les distributions des mesures de latence générées par les deux canaux.Dans un second temps nous proposons une stratégie de modélisation pour prédire le processus obtenu en calculant la médiane mobile des mesures de latence sur des partitions régulières de l'intervalle [0, T] avec un maillage D > 0. On montre que la moyenne conditionnelle de ce processus, qui joue un rôle majeur dans l'optimisation du traffic Internet, est correctement décrite par une décomposition en séries de Fourier et que sa variance conditionnelle s'organise en clusters qu'on modélise à l'aide d'un processus ARMA Seasonal-GARCH, c'est à dire un processus ARMA-GARCH avec ajout de termes saisonniers déterministes. Les performances prédictives de ce modèle sont comparées aux modèles de référence utilisés dans l'industrie. Une nouvelle mesure de la quantité d'information résiduelle non captée par le modèle basée sur un certain critère entropique est introduite.Nous abordons ensuite le problème de la détection de panne dans le réseau Internet. Nous proposons un algorithme de détection de changement dans la distribution d'un stream de données de latence basé sur la comparaison de deux fenêtres glissantes à l'aide d'une certain distance de Wasserstein pondérée.Enfin, nous décrivons comment sélectionner les données d'entraînement des algorithmes prédictifs de manière à réduire leur taille pour limiter les coûts de calculs sans impacter la précision.
  • Estimation des sauts rapides à retour à la moyenne dans les modèles de marché de l'électricité.

    Thomas DESCHATRE, Marc HOFFMANN, Olivier FERON
    ESAIM: Probability and Statistics | 2020
    Sur la base de preuves empiriques de pics rapides à retour à la moyenne, les prix spot de l'électricité sont souvent modélisés X + Zβ comme la somme d'une semimartingale Itô continue X et d'un processus de Poisson composé à retour à la moyenne Ztβ=∫0t ∫ℝxe-β(t-s)p̲(ds,dt) où p̲(ds,dt) est une mesure aléatoire de Poisson avec une intensité λds ⊗dt. Dans une première partie, nous étudions l'estimation de (λ, β) à partir d'observations discrètes et établissons l'efficacité asymptotique dans divers paramètres asymptotiques. Dans une deuxième partie, nous discutons de l'utilisation de nos résultats d'inférence pour corriger la valeur des contrats à terme sur les marchés de l'électricité en présence de pics. Nous implémentons notre méthode sur des données réelles sur le marché français, allemand et australien sur 2015 et 2016 et montrons notamment l'effet de la modélisation des spikes sur la valorisation de certaines options strip. En particulier, nous montrons que certaines options hors monnaie ont une valeur significative si nous intégrons les spikes dans notre modélisation, alors qu'elles ont une valeur proche de 0 dans le cas contraire.
  • Quelques aspects du rôle central de la microstructure des marchés financiers : dynamique de la volatilité, négociation optimale et conception du marché.

    Paul JUSSELIN, Mathieu ROSENBAUM, Nicole EL KAROUI, Mathieu ROSENBAUM, Jean philippe BOUCHAUD, Darrell DUFFIE, Gilles PAGES, Peter TANKOV, Marc HOFFMANN, Nizar TOUZI, Jean philippe BOUCHAUD, Darrell DUFFIE
    2020
    Cette thèse est organisée en trois parties. Dans la première on examine les relations entre la dynamique microscopique et macroscopique du marché en se concentrant sur les propriétés de la volatilité. Dans la deuxième partie on s'intéresse au contrôle optimal stochastique de processus ponctuels. Finalement dans la troisième partie on étudie deux problématiques de market design.On commence cette thèse par l'étude des liens entre le principe d'absence d'opportunité d'arbitrage et l'irrégularité de la volatilité. A l'aide d'une méthode de changement d'échelle on montre que l'on peut effectivement connecter ces deux notions par l'analyse du market impact des métaordres. Plus précisément on modélise le flux des ordres marchés en utilisant des procesus de Hawkes linéaires. Puis on montre que le principe d'absence d'opportunité d'arbitrage ainsi que l'existence d'un market impact non trivial impliquent que la volatilité est rugueuse et plus précisément qu'elle suit un modèle rough Heston. On examine ensuite une classe de modèles microscopiques où le flux d'ordre est un processus de Hawkes quadratique. L'objectif est d'étendre le modèle rough Heston à des modèles continus permettant de reproduire l'effet Zumbach. Finalement on utilise un de ces modèles, le modèle rough Heston quadratique, pour la calibration jointe des nappes de volatilité du SPX et du VIX.Motivé par l'usage intensif de processus ponctuels dans la première partie, on s'intéresse dans la deuxième au contrôle stochastique de processus ponctuels. Notre objectif est de fournir des résultats théoriques en vue d'applications en finance. On commence par considérer le cas du contrôle de processus de Hawkes. On prouve l'existence d'une solution puis l'on propose une méthode permettant d'appliquer ce contrôle en pratique. On examine ensuite les limites d'échelles de problèmes de contrôles stochastiques dans le cadre de modèles de dynamique de population. Plus exactement on considère une suite de modèles de dynamique d'une population discrète qui converge vers un modèle pour une population continue. Pour chacun des modèles on considère un problème de contrôle. On prouve que la suite des contrôles optimaux associés aux modèles discrets converge vers le contrôle optimal associé au modèle continu. Ce résultat repose sur la continuité, par rapport à différents paramètres, de la solution d'une équation différentielle schostatique rétrograde.Dans la dernière partie on s'intéresse à deux problèmatiques de market design. On examine d'abord la question de l'organisation d'un marché liquide de produits dérivés. En se concentrant sur un marché d'options, on propose une méthode en deux étapes pouvant facilement être appliquée en pratique. La première étape consiste à choisir les options qui seront listées sur le marché. Pour cela on utilise un algorithme de quantification qui permet de sélectionner les options les plus demandées par les investisseurs. On propose ensuite une méthode d'incitation tarifaire visant à encourager les market makers à proposer des prix attractifs. On formalise ce problème comme un problème de type principal-agent que l'on résoud explicitement. Finalement, on cherche la durée optimale d'une enchère pour les marchés organisés en enchères séquentielles, le cas de la durée nulle correspondant à celui d'une double enchère continue. On utilise un modèle où les market takers sont en compétition et on considère que la durée optimale est celle correspondant au processus de découverte du prix le plus efficace. Après avoir prouvé l'existence d'un équilibre de Nash pour la compétition entre les market takers, on applique nos résultats sur des données de marchés. Pour la plupart des actifs, la durée optimale se trouve entre 2 et 10 minutes.
  • Contributions à la statistique en grande dimension.

    Olga KLOPP, Patrice BERTAIL, Gerard BIAU, Stephane BOUCHERON, Marc HOFFMANN, Olivier GUEDON, Guillaume LECUE, Alexandre b. TSYBAKOV
    2019
    Ce mémoire d'habilitation a pour objet de donner un compte-rendu de mes contributions à la statistique en grande dimension. La première partie est consacrée au problème de la complétion de matrices. Après avoir présenté le problème, je décris les résultats principaux obtenus dans les articles [Klo11, GK17, KLMS15, Klo15, KLT16, KT15, LKMS14]. La seconde partie est consacrée au modèle à coefficients variables . j'y présente les principaux résultats des études non asymptotique [KP13, KP15]. Enfin, la troisième partie présente les résultats de [KTV16] portant sur le modèle de réseaux parcimonieux et le modèle du graphon.
  • Inférence statistique pour un système interactif partiellement observé de processus de Hawkes.

    Chenguang LIU, Nicolas FOURNIER, Sylvain DELATTRE, Marc HOFFMANN, Ismael CASTILLO, Emmanuelle CLEMENT, Vincent RIVOIRARD
    2019
    Nous observons les actions d'un sous-échantillon de K de N d’individus, pendant un intervalle de temps de longueur t>0, pour certaines grandes K≤N. Nous modélisons les relations des individus par i.i.d. Bernoulli (p) variables aléatoires, où p∈(0,1] est un paramètre inconnu. Le taux d’action de chaque individu dépend d’un paramètre inconnu μ>0 et sur la somme de quelque fonction ϕ des âges des actions des individus qui l'influencent. La fonction ϕ est inconnue mais nous supposons qu'elle se désintègre rapidement. Le but de cette thèse est d'estimer le paramètre p, qui est la principale caractéristique du graphe d’interaction, dans l'asymptotique où taille de la population N→∞, la taille de la population observée K→∞, et dans un temps long t→∞. Soit mt le nombre moyen d'actions par individu jusqu'au temps t, qui dépend de tous les paramètres du modèle. Dans le cas sous-critique, où mt augmente linéairement, nous construisons un estimateur de p avec le taux de convergence 1K√+NmtK√+NKmt√. Dans le cas supercritique, où mt augmente rapidement de façon exponentielle, nous construisons un estimateur de p avec le taux de convergence 1K√+NmtK√. Dans un second temps, nous étudions la normalité asymptotique de ces estimateurs. Dans le cas sous-critique, le travail est très technique mais assez général, et nous sommes amenés à étudier trois régimes possibles, en fonction du terme dominant dans 1K√+NmtK√+NKmt√ à 0. Dans le cas supercritique, nous supposons malheureusement quelques conditions supplémentaires et considérons seulement l'un des deux régimes possibles.
  • Estimation statistique dans une population ramifiée à structure aléatoire.

    Marc HOFFMANN, Aline MARGUET
    2019
    Nous considérons un processus de branchement binaire structuré par un trait stochastique qui évolue selon un processus de diffusion qui déclenche les événements de branchement, dans l'esprit du modèle de Kimmel de division cellulaire avec infection parasitaire. A partir de l'observation du trait à la naissance des n premières générations du processus, nous construisons un estimateur non paramétrique de la transition de la chaîne de bifurcation associée et étudions l'estimation paramétrique du taux de branchement. Dans la limite $n → ∞$, nous obtenons l'efficacité asymptotique dans le cas paramétrique et l'optimalité minimax dans le cas non paramétrique.
  • Estimation statistique dans une population ramifiée à structure aléatoire.

    Marc HOFFMANN, Aline MARGUET
    Stochastic Processes and their Applications | 2019
    Nous considérons un processus de branchement binaire structuré par un trait stochastique qui évolue selon un processus de diffusion qui déclenche les événements de branchement, dans l'esprit du modèle de Kimmel de division cellulaire avec infection parasitaire. A partir de l'observation du trait à la naissance des n premières générations du processus, nous construisons un estimateur non paramétrique de la transition de la chaîne de bifurcation associée et étudions l'estimation paramétrique du taux de branchement. Dans la limite $n → ∞$, nous obtenons l'efficacité asymptotique dans le cas paramétrique et l'optimalité minimax dans le cas non paramétrique.
  • Quantification optimale : Théorème limite, regroupement et simulation de l'équation McKean-Vlasov.

    Yating LIU, Gilles PAGES, Marc HOFFMANN, Gerard BIAU, Francois BOLLEY, Jean francois CHASSAGNEUX, Clementine PRIEUR, Benjamin JOURDAIN, Harald LUSCHGY
    2019
    Cette thèse contient deux parties. Dans la première partie, on démontre deux théorèmes limites de la quantification optimale. Le premier théorème limite est la caractérisation de la convergence sous la distance de Wasserstein d’une suite de mesures de probabilité par la convergence simple des fonctions d’erreur de la quantification. Ces résultats sont établis en Rd et également dans un espace de Hilbert séparable. Le second théorème limite montre la vitesse de convergence des grilles optimales et la performance de quantification pour une suite de mesures de probabilité qui convergent sous la distance de Wasserstein, notamment la mesure empirique. La deuxième partie de cette thèse se concentre sur l’approximation et la simulation de l’équation de McKean-Vlasov. On commence cette partie par prouver, par la méthode de Feyel (voir Bouleau (1988)[Section 7]), l’existence et l’unicité d’une solution forte de l’équation de McKean-Vlasov dXt = b(t, Xt, μt)dt + σ(t, Xt, μt)dBt sous la condition que les fonctions de coefficient b et σ sont lipschitziennes. Ensuite, on établit la vitesse de convergence du schéma d’Euler théorique de l’équation de McKean-Vlasov et également les résultats de l’ordre convexe fonctionnel pour les équations de McKean-Vlasov avec b(t,x,μ) = αx+β, α,β ∈ R. Dans le dernier chapitre, on analyse l’erreur de la méthode de particule, de plusieurs schémas basés sur la quantification et d’un schéma hybride particule- quantification. À la fin, on illustre deux exemples de simulations: l’équation de Burgers (Bossy and Talay (1997)) en dimension 1 et le réseau de neurones de FitzHugh-Nagumo (Baladron et al. (2012)) en dimension 3.
  • Recherche de caractéristiques de haute fréquence dans un signal bruyant.

    Mathieu MEZACHE, Marc HOFFMANN, Human REZAEI, Marie DOUMIC
    2019
    L'objectif de cet article est de détecter des caractéristiques de haute fréquence (HF) dans un signal bruité. Nous proposons une caractérisation paramétrique dans le domaine de Fourier des caractéristiques HF. Nous introduisons ensuite une procédure pour évaluer ces paramètres et calculer une valeur p qui évalue de manière quantitative la présence ou l'absence de ces caractéristiques, que nous appelons aussi "oscillations". La procédure est bien adaptée aux signaux réels unidimensionnels. Si le signal analysé présente des événements singuliers dans les basses fréquences, la première étape consiste à régulariser sa transformée de Fourier en fonction des données. Dans la deuxième étape, les paramètres des caractéristiques HF sont estimés. La troisième étape est le calcul de la valeur p grâce à une procédure de Monte Carlo. Le test est effectué sur des signaux de contrôle où le rapport amplitude des oscillations/niveau de bruit est entièrement contrôlé. Le test détecte les caractéristiques HF même lorsque le niveau de bruit est cinq fois plus important que l'amplitude des oscillations. Le test est également effectué sur des signaux provenant d'expériences sur la maladie de Prion et confirme la présence de caractéristiques HF dans ces signaux.
  • Modélisation et analyse de la dynamique des populations cellulaires : application au développement précoce des follicules ovariens.

    Frederique ROBIN, Frederique CLEMENT, Romain YVINEC, Marie DOUMIC, Nicolas CHAMPAGNAT, Pierre GABRIEL, Beatrice LAROCHE, Marc HOFFMANN, Jan HASENAUER
    2019
    Cette thèse vise à concevoir et analyser des modèles de dynamique des populations dédiés à la dynamique des cellules somatiques durant les premiers stades de la croissance du follicule ovarien. Les comportements des modèles sont analysés par des approches théoriques et numériques, et les valeurs des paramètres sont calibrées en proposant des stratégies de maximum de vraisemblance adaptées à notre jeu de données spécifique. Un modèle stochastique non linéaire, qui tient compte de la dynamique conjointe entre deux types cellulaires (précurseur et prolifératif), est dédié à l'activation de la croissance folliculaire. Une approche rigoureuse de projection par états finis est mise en œuvre pour caractériser l'état du système à l'extinction et calculer le temps d'extinction des cellules précurseurs. Un modèle linéaire multi-type structuré en âge, appliquée à la population de cellules prolifératives, est dédié à la croissance folliculaire précoce. Les différents types correspondent ici aux positions spatiales des cellules. Ce modèle est de type décomposable . les transitions sont unidirectionnelles du premier vers le dernier type. Nous prouvons la convergence en temps long du modèle stochastique de Bellman-Harris et de l'équation de McKendrick-VonFoerster multi-types. Nous adaptons les résultats existants dans le cas où le théorème de Perron-Frobenius ne s'applique pas, et nous obtenons des formules analytiques explicites pour les moments asymptotiques des nombres de cellules et de la distribution stationnaire en âge. Nous étudions également le caractère bien posé du problème inverse associé au modèle déterministe.
  • Estimation efficace de la volatilité dans un modèle à deux facteurs.

    Olivier FERON, Pierre GRUET, Marc HOFFMANN
    Scandinavian Journal of Statistics | 2019
    Nous analysons statistiquement un modèle de diffusion HJM multivarié avec une volatilité stochastique. Le processus de volatilité du premier facteur est laissé totalement indéterminé tandis que la volatilité du second facteur est le produit d'un processus inconnu et d'une fonction exponentielle du temps jusqu'à la maturité. Ce terme exponentiel inclut un paramètre réel mesurant le taux d'augmentation du second facteur au fur et à mesure que le temps s'écoule jusqu'à la maturité. À partir de données historiques, nous estimons de manière efficace le paramètre de temps de maturation, en construisant un estimateur qui atteint une limite d'information optimale dans un cadre semi-paramétrique. Nous identifions également de manière non paramétrique les chemins des processus de volatilité et obtenons des limites minimax. Nous abordons le problème de dégénérescence qui se produit lorsque la dimension du processus est supérieure à deux, et nous donnons en particulier des théorèmes de limite optimale sous des hypothèses de régularité appropriées sur le processus de dérive. Nous analysons de manière cohérente le comportement numérique de nos estimateurs sur des ensembles de données simulées et réelles de prix de contrats à terme sur les marchés de l'électricité. Classification des sujets en mathématiques (2010) : 62M86, 60J75, 60G35, 60F05.
  • L'estimation des sauts rapides à retour à la moyenne dans les modèles de marché de l'électricité.

    Thomas DESCHATRE, Marc HOFFMANN
    2018
    Sur la base de preuves empiriques de pics rapides de retour à la moyenne, nous modélisons les processus de prix de l'électricité X + Z β comme la somme d'une semimartingale Itô continue X et d'un processus de Poisson composé à retour à la moyenne Z β t = t 0 R xe -β(t-s) p(ds, dt) où p(ds, dt) est une mesure aléatoire de Poisson avec une intensité λds ⊗ dt. Dans une première partie, nous étudions l'estimation de (λ, β) à partir d'observations discrètes et établissons l'efficacité asymptotique dans divers paramètres asymptotiques. Dans une deuxième partie, nous discutons de l'utilisation de nos résultats d'inférence pour corriger la valeur des contrats à terme sur les marchés de l'électricité en présence de pics. Nous implémentons notre méthode sur des données réelles sur le marché français, greman et australien sur 2015 et 2016 et montrons notamment l'effet de la modélisation des spikes sur la valorisation de certaines options strip. En particulier, nous montrons que certaines options hors monnaie ont une valeur significative si nous intégrons les spikes dans notre modélisation, alors qu'elles ont une valeur proche de 0 dans le cas contraire. Classification des sujets en mathématiques (2010) : 62M86, 60J75, 60G35, 60F05.
  • Estimation efficace de la volatilité dans un modèle à deux facteurs.

    Olivier FERON, Marc HOFFMANN, Pierre GRUET
    2018
    Nous analysons statistiquement un modèle de diffusion HJM multivarié avec une volatilité stochastique. Le processus de volatilité du premier facteur est laissé totalement indéterminé tandis que la volatilité du second facteur est le produit d'un processus inconnu et d'une fonction exponentielle du temps jusqu'à la maturité. Ce terme exponentiel inclut un paramètre réel mesurant le taux d'augmentation du second facteur au fur et à mesure que le temps s'écoule vers la maturité. À partir de données historiques, nous estimons de manière efficace le paramètre de temps de maturation, en construisant un estimateur qui atteint une limite d'information optimale dans un cadre semi-paramétrique. Nous identifions également de manière non paramétrique les chemins des processus de volatilité et obtenons des limites minimax. Nous abordons le problème de dégénérescence qui se produit lorsque la dimension du processus est supérieure à deux, et nous donnons en particulier des théorèmes de limite optimale sous des hypothèses de régularité appropriées sur le processus de dérive. Nous analysons de manière cohérente le comportement numérique de nos estimateurs sur des ensembles de données simulées et réelles de prix de contrats à terme sur les marchés de l'électricité. Classification des sujets en mathématiques (2010) : 62M86, 60J75, 60G35, 60F05.
  • Modélisation de la dépendance entre des processus stochastiques à temps continu : une application à la modélisation des marchés de l'électricité et à la gestion des risques.

    Thomas DESCHATRE, Marc HOFFMANN, Jean david FERMANIAN, Marc HOFFMANN, Jean david FERMANIAN, Peter TANKOV, Markus BIBINGER, Vincent RIVOIRARD, Olivier FERON, Peter TANKOV, Markus BIBINGER
    2017
    Cette thèse traite de problèmes de dépendance entre processus stochastiques en temps continu. Ces résultats sont appliqués à la modélisation et à la gestion des risques des marchés de l'électricité.Dans une première partie, de nouvelles copules sont établies pour modéliser la dépendance entre deux mouvements Browniens et contrôler la distribution de leur différence. On montre que la classe des copules admissibles pour les Browniens contient des copules asymétriques. Avec ces copules, la fonction de survie de la différence des deux Browniens est plus élevée dans sa partie positive qu'avec une dépendance gaussienne. Les résultats sont appliqués à la modélisation jointe des prix de l'électricité et d'autres commodités énergétiques. Dans une seconde partie, nous considérons un processus stochastique observé de manière discrète et défini par la somme d'une semi-martingale continue et d'un processus de Poisson composé avec retour à la moyenne. Une procédure d'estimation pour le paramètre de retour à la moyenne est proposée lorsque celui-ci est élevé dans un cadre de statistique haute fréquence en horizon fini. Ces résultats sont utilisés pour la modélisation des pics dans les prix de l'électricité.Dans une troisième partie, on considère un processus de Poisson doublement stochastique dont l'intensité stochastique est une fonction d'une semi-martingale continue. Pour estimer cette fonction, un estimateur à polynômes locaux est utilisé et une méthode de sélection de la fenêtre est proposée menant à une inégalité oracle. Un test est proposé pour déterminer si la fonction d'intensité appartient à une certaine famille paramétrique. Grâce à ces résultats, on modélise la dépendance entre l'intensité des pics de prix de l'électricité et de facteurs exogènes tels que la production éolienne.
  • Estimation adaptative pour les chaînes de Markov bifurquées.

    Simeon valere BITSEKI PENDA, Marc HOFFMANN, Adelaide OLIVIER, S. valere BITSEKI PENDA
    Bernoulli | 2017
    Dans une première partie, nous prouvons des inégalités de déviation de type Bernstein pour les chaînes de Markov bifurquées (BMC) sous une hypothèse d'ergodicité géométrique, complétant ainsi des résultats antérieurs de Guyon et Bitseki Penda, Djellout et Guillin. Ces résultats préliminaires sont l'ingrédient clé pour mettre en œuvre des procédures d'estimation non paramétriques par seuillage en ondelettes : dans une deuxième partie, nous construisons des estimateurs non paramétriques de la densité de transition d'une BMC, de sa densité de transition moyenne et de la densité invariante correspondante, et montrons l'adaptation de la régularité sur diverses classes de Besov multivariées sous $L^p$ -l'erreur de perte, pour $1\leq p<\infty$. Nous prouvons que nos estimateurs sont (presque) optimaux dans un sens minimax. Comme application, nous obtenons de nouveaux résultats pour l'estimation du taux de fractionnement dépendant de la taille des modèles de croissance-fragmentation et nous étendons l'étude statistique des processus autorégressifs bifurqués.
  • Approches nouvelles des modèles GARCH multivariés en grande dimension.

    Benjamin POIGNARD, Jean david FERMANIAN, Jean michel ZAKOIAN, Jean david FERMANIAN, Jean michel ZAKOIAN, Pierre ALQUIER, Ostap OKHRIN, Marc HOFFMANN, Cristina BUTUCEA, Pierre ALQUIER, Ostap OKHRIN
    2017
    Ce document traite du problème de la grande dimension dans des processus GARCH multivariés. L'auteur propose une nouvelle dynamique vine-GARCH pour des processus de corrélation paramétrisés par un graphe non dirigé appelé "vine". Cette approche génère directement des matrices définies-positives et encourage la parcimonie. Après avoir établi des résultats d'existence et d'unicité pour les solutions stationnaires du modèle vine-GARCH, l'auteur analyse les propriétés asymptotiques du modèle. Il propose ensuite un cadre général de M-estimateurs pénalisés pour des processus dépendants et se concentre sur les propriétés asymptotiques de l'estimateur "adaptive Sparse Group Lasso". La grande dimension est traitée en considérant le cas où le nombre de paramètres diverge avec la taille de l'échantillon. Les résultats asymptotiques sont illustrés par des expériences simulées. Enfin dans ce cadre l'auteur propose de générer la sparsité pour des dynamiques de matrices de variance covariance. Pour ce faire, la classe des modèles ARCH multivariés est utilisée et les processus correspondants à celle-ci sont estimés par moindres carrés ordinaires pénalisés.
  • Estimation non-paramétrique du taux de division d'un processus de branchement dépendant de l'âge.

    Marc HOFFMANN, Adelaide OLIVIER
    Stochastic Processes and their Applications | 2016
    Nous étudions l'estimation non paramétrique du taux de branchement B(x) d'une population supercritique de Bellman-Harris : une particule d'âge x a une durée de vie aléatoire régie par B(x). A son heure de mort, elle donne naissance à k ≥ 2 enfants dont la durée de vie est régie par le même taux de division et ainsi de suite. Nous observons en temps continu le processus sur [0, T ]. L'asymptotique est prise comme T → ∞. Les données sont stochastiquement dépendantes et on doit faire face simultanément à la censure, à la sélection de biais et à la non-ancillarité du nombre d'observations. Dans ce contexte, sous des propriétés d'ergodicité appropriées, nous construisons un estimateur de B(x) basé sur le noyau qui atteint le taux de convergence exp(-λ_B β/(2β+1) T), où λ_B est le paramètre de Malthus et β > 0 est le lissage de la fonction B(x) dans un voisinage de x. Nous prouvons que ce taux est optimal dans un sens minimax et nous le relions explicitement aux modèles non paramétriques classiques tels que l'estimation de densité observée sur une échelle appropriée (dépendant du paramètre). Nous mettons également en lumière le fait que l'estimation avec des estimateurs à noyau basés sur des données vivantes au temps T seulement n'est pas suffisante pour obtenir des taux de convergence optimaux, un phénomène qui est spécifique à l'estimation non paramétrique et qui a été observé dans d'autres modèles de croissance-fragmentation connexes.
  • Estimation adaptative pour les chaînes de markov bifurquées.

    Simeon valere BITSEKI PENDA, Marc HOFFMANN, Adelaide OLIVIER
    Bernoulli | 2016
    Dans une première partie, nous prouvons des inégalités de déviation de type Bernstein pour les chaînes de Markov bifurquées (BMC) sous une hypothèse d'ergodicité géométrique, complétant ainsi des résultats antérieurs de Guyon et Bitseki Penda, Djellout et Guillin. Ces résultats préliminaires constituent l'ingrédient clé pour mettre en œuvre des procédures d'estimation non paramétriques par seuillage en ondelettes : dans une deuxième partie, nous construisons des estimateurs non paramétriques de la densité de transition d'une BMC, de sa densité de transition moyenne et de la densité invariante correspondante, et montrons l'adaptation de la fluidité sur diverses classes de Besov multivariées sous L erreur de p-perte, pour 1 ≤ p < ∞. Nous prouvons que nos estimateurs sont (presque) optimaux dans un sens minimax. Comme application, nous obtenons de nouveaux résultats pour l'estimation du taux de fractionnement dépendant de la taille des modèles de croissance-fragmentation et nous étendons l'étude statistique des processus autorégressifs bifurqués.
  • Application des processus stochastiques aux enchères en temps réel et à la propagation d'information dans les réseaux sociaux.

    Remi LEMONNIER, Nicolas VAYATIS, Nicolas VAYATIS, Manuel GOMEZ RODRIGUEZ, Florent KRZAKALA, Marc HOFFMANN, Emmanuel BACRY, Manuel GOMEZ RODRIGUEZ, Florent KRZAKALA, Marc HOFFMANN
    2016
    Dans cette thèse, nous étudions deux applications des processus stochastiques au marketing internet. Le premier chapitre s’intéresse au scoring d’internautes pour les enchères en temps réel. Ce problème consiste à trouver la probabilité qu’un internaute donné réalise une action d’intérêt, appelée conversion, dans les quelques jours suivant l’affichage d’une bannière publicitaire. Nous montrons que les processus de Hawkes constituent une modélisation naturelle de ce phénomène mais que les algorithmes de l’état de l’art ne sont pas applicables à la taille des données typiquement à l’œuvre dans des applications industrielles. Nous développons donc deux nouveaux algorithmes d’inférence non-paramétrique qui sont plusieurs ordres de grandeurs plus rapides que les méthodes précédentes. Nous montrons empiriquement que le premier a de meilleures performances que les compétiteurs de l’état de l’art, et que le second permet une application à des jeux de données encore plus importants sans payer un prix trop important en terme de pouvoir de prédiction. Les algorithmes qui en découlent ont été implémentés avec de très bonnes performances depuis plusieurs années à 1000 mercis, l’agence marketing d’avant-garde étant le partenaire industriel de cette thèse CIFRE, où ils sont devenus un actif important pour la production. Le deuxième chapitre s’intéresse aux processus diffusifs sur les graphes qui constituent un outil important pour modéliser la propagation d’une opération de marketing viral sur les réseaux sociaux. Nous établissons les premières bornes théoriques sur le nombre total de nœuds atteint par une contagion dans le cadre de graphes et dynamiques de diffusion quelconques, et montrons l’existence de deux régimes bien distincts : le régime sous-critique où au maximum $O(sqrt{n})$ nœuds seront infectés, où $n$ est la taille du réseau, et le régime sur-critique ou $O(n)$ nœuds peuvent être infectés. Nous étudions également le comportement par rapport au temps d’observation $T$ et mettons en lumière l’existence de temps critiques en-dessous desquels une diffusion, même sur-critique sur le long terme, se comporte de manière sous-critique. Enfin, nous étendons nos travaux à la percolation et l’épidémiologie, où nous améliorons les résultats existants.
  • Estimation non paramétrique du taux de division d'un processus de branchement dépendant de l'âge.

    Marc HOFFMANN, Adelaide OLIVIER
    2015
    Nous étudions l'estimation non paramétrique du taux de branchement B(x) d'une population supercritique de Bellman-Harris : une particule d'âge x a une durée de vie aléatoire régie par B(x). à son heure de mort, elle donne naissance à k ≥ 2 descendants dont la durée de vie est régie par le même taux de division et ainsi de suite. Nous observons continuellement le processus sur un grand intervalle de temps [0, T ]. Les données sont stochastiquement dépendantes et on doit faire face simultanément à la censure, à la sélection de biais et à la non-ancillarité du nombre d'observations. Dans ce contexte, nous construisons un estimateur de B(x) basé sur le noyau qui atteint le taux de convergence exp(-λ B β 2β+1 T), où λ B est le paramètre de Malthus et β > 0 est le lissage de la fonction B(x) dans une viscosité de x. Nous prouvons que ce taux est optimal dans un sens minimax et nous le relions explicitement aux modèles non paramétriques classiques tels que l'estimation de densité observée sur une échelle appropriée (dépendant du paramètre). Nous mettons également en lumière le fait que l'estimation avec des estimateurs à noyau basés sur des données vivantes au temps T seulement n'est pas suffisante pour obtenir des taux de convergence optimaux, un phénomène qui est spécifique à l'estimation non paramétrique et qui a été observé dans d'autres modèles de croissance-fragmentation connexes.
  • Analyse statistique des modèles de croissance-fragmentation.

    Adelaide OLIVIER, Marc HOFFMANN, Marie DOUMIC, Benoit PERTHAME, Marie DOUMIC, Benoit PERTHAME, Eva LOCHERBACH, Patricia REYNAUD BOURET, Stephane MISCHLER, Alexandre b. TSYBAKOV, Christophe GIRAUD, Eva LOCHERBACH, Patricia REYNAUD BOURET
    2015
    Cette étude théorique est pensée en lien étroit avec un champ d'application : il s'agit de modéliser la croissance d'une population de cellules qui se divisent selon un taux de division inconnu, fonction d’une variable dite structurante – l’âge et la taille des cellules étant les deux exemples paradigmatiques étudiés. Le champ mathématique afférent se situe à l'interface de la statistique des processus, de l’estimation non-paramétrique et de l’analyse des équations aux dérivées partielles. Les trois objectifs de ce travail sont les suivants : reconstruire le taux de division (fonction de l’âge ou de la taille) pour différents schémas d’observation (en temps généalogique ou en temps continu) . étudier la transmission d'un trait biologique général d'une cellule à une autre et étudier le trait d’une cellule typique . comparer la croissance de différentes populations de cellules à travers le paramètre de Malthus (après introduction de variabilité dans le taux de croissance par exemple).
  • Estimation statistique d'un modèle de croissance-fragmentation observé sur un arbre généalogique.

    Marie DOUMIC, Marc HOFFMANN, Nathalie KRELL, Lydia ROBERT
    Bernoulli | 2015
    Nous soulevons le problème de l'estimation du taux de division pour une population en croissance et en division modélisée par un arbre de branchement de Markov déterministe par morceaux. De tels modèles ont de nombreuses applications, allant du protocole de taille de fenêtre TCP/IP à la croissance bactérienne. Ici, les individus se divisent en deux rejetons à un taux de division B(x) qui dépend de leur taille x, tandis que leur taille croît de manière exponentielle dans le temps, à un taux qui présente une variabilité. La mesure empirique moyenne du modèle satisfait une équation de type croissance-fragmentation, et nous établissons un pont entre les points de vue déterministe et probabiliste. Nous construisons ensuite un estimateur non paramétrique du taux de division B(x) basé sur l'observation de la population sur différents plans d'échantillonnage de taille n sur l'arbre généalogique. Notre estimateur atteint presque le taux n -s/(2s+1) d'erreur de perte au carré asymptotiquement, généralisant et améliorant le taux n -s/(2s+3) obtenu dans [13, 15] par des schémas d'observation indirecte. Notre méthode est régulièrement testée numériquement et mise en œuvre sur des données d'Escherichia coli, ce qui démontre son intérêt majeur pour des applications pratiques.
  • Méthodes d'optimisation et de statistique pour la finance à haute fréquence.

    Marc HOFFMANN, Mauricio LABADIE, Charles albert LEHALLE, Gilles PAGES, Huyen PHAM, Mathieu ROSENBAUM
    ESAIM: Proceedings and Surveys | 2014
    La finance haute fréquence a récemment évolué de la modélisation statistique et de l'analyse des données financières - où l'objectif initial était de reproduire des faits stylisés et de développer des outils d'inférence appropriés - vers l'optimisation du trading, où un agent cherche à exécuter un ordre (ou une série d'ordres) dans un environnement stochastique qui peut réagir à l'algorithme de trading de l'agent (impact sur le marché, facturation). Ce contexte pose de nouveaux défis scientifiques abordés par le minisymposium OPSTAHF.
  • La division chez Escherichia coli est déclenchée par un mécanisme de détection de la taille plutôt que par un mécanisme de synchronisation.

    Lydia ROBERT, Marc HOFFMANN, Nathalie KRELL, Stephane AYMERICH, Jerome ROBERT, Marie DOUMIC
    BMC Biology | 2014
    Contexte De nombreux organismes coordonnent la croissance et la division cellulaire par des mécanismes de contrôle de la taille : les cellules doivent atteindre une taille critique pour déclencher un événement du cycle cellulaire. On suppose souvent que la division bactérienne est contrôlée de cette manière, mais les preuves expérimentales à l'appui de cette hypothèse font encore défaut. Des arguments théoriques montrent que le contrôle de la taille est nécessaire pour maintenir l'homéostasie de la taille dans le cas d'une croissance exponentielle des cellules individuelles. Néanmoins, si la loi de croissance s'écarte légèrement de la loi exponentielle pour les très petites cellules, l'homéostasie peut être maintenue grâce à une simple "minuterie" déclenchant la division. Par conséquent, décider si le contrôle de la division chez les bactéries repose sur un mécanisme de " timer " ou de " sizer " nécessite des comparaisons quantitatives entre les modèles et les données. Résultats Les hypothèses de timer et de sizer trouvent une expression naturelle dans des modèles basés sur des équations différentielles partielles. Ici, nous testons ces modèles avec des données récentes sur la croissance unicellulaire d'Escherichia coli. Nous démontrons qu'un mécanisme de minuterie indépendant de la taille pour le contrôle de la division, bien que théoriquement possible, est quantitativement incompatible avec les données et extrêmement sensible à de légères variations de la loi de croissance. En revanche, un modèle de sizer est robuste et s'ajuste bien aux données. En outre, nous avons testé l'effet de la variabilité des taux de croissance individuels et du bruit dans le positionnement du septum et nous avons constaté que le contrôle de la taille est robuste à ce bruit phénotypique. Conclusions Les confrontations entre les modèles de cycle cellulaire et les données souffrent généralement d'un manque de données de haute qualité et de techniques d'estimation statistique appropriées. Ici, nous avons surmonté ces limitations en utilisant des mesures de haute précision de dizaines de milliers de cellules bactériennes uniques combinées à des méthodes d'inférence statistique récentes pour estimer le taux de division dans les modèles. Nous fournissons donc la première évaluation quantitative précise de différents modèles de cycle cellulaire.
  • Modélisation et analyse statistique de la formation des prix à travers les échelles, Market impact.

    Relu adrian IUGA, Marc HOFFMANN, Damien LAMBERTON, Marc HOFFMANN, Emmanuel BACRY, Romuald ELIE, Fabrizio LILLO, Francois ROUEFF
    2014
    Le développement des marchés électroniques organisés induit une pression constante sur la recherche académique en finance. L'impact sur le prix d'une transaction boursière portant sur une grande quantité d'actions sur une période courte est un sujet central. Contrôler et surveiller l'impact sur le prix est d'un grand intérêt pour les praticiens, sa modélisation est ainsi devenue un point central de la recherche quantitative de la finance. Historiquement, le calcul stochastique s'est progressivement imposé en finance, sous l'hypothèse implicite que les prix des actifs satisfont à des dynamiques diffusives. Mais ces hypothèses ne tiennent pas au niveau de la ``formation des prix'', c'est-à-dire lorsque l'on se place dans les échelles fines des participants de marché. Des nouvelles techniques mathématiques issues de la statistique des processus ponctuels s'imposent donc progressivement. Les observables (prix traité, prix milieu) apparaissent comme des événements se réalisant sur un réseau discret, le carnet d'ordre, et ceci à des échelles de temps très courtes (quelques dizaines de millisecondes). L'approche des prix vus comme des diffusions browniennes satisfaisant à des conditions d'équilibre devient plutôt une description macroscopique de phénomènes complexes issus de la formation des prix. Dans un premier chapitre, nous passons en revue les propriétés des marchés électroniques. Nous rappelons la limite des modèles diffusifs et introduisons les processus de Hawkes. En particulier, nous faisons un compte rendu de la recherche concernant le maket impact et nous présentons les avancées de cette thèse. Dans une seconde partie, nous introduisons un nouveau modèle d'impact à temps continu et espace discret en utilisant les processus de Hawkes. Nous montrons que ce modèle tient compte de la microstructure des marchés et est capable de reproduire des résultats empiriques récents comme la concavité de l'impact temporaire. Dans le troisième chapitre, nous étudions l'impact d'un grand volume d'action sur le processus de formation des prix à l'échelle journalière et à une plus grande échelle (plusieurs jours après l'exécution). Par ailleurs, nous utilisons notre modèle pour mettre en avant des nouveaux faits stylisés découverts dans notre base de données. Dans une quatrième partie, nous nous intéressons à une méthode non-paramétrique d'estimation pour un processus de Hawkes unidimensionnel. Cette méthode repose sur le lien entre la fonction d'auto-covariance et le noyau du processus de Hawkes. En particulier, nous étudions les performances de cet estimateur dans le sens de l'erreur quadratique sur les espaces de Sobolev et sur une certaine classe contenant des fonctions « très » lisses.
  • Quelques théorèmes limites pour les processus de Hawkes et application aux statistiques financières.

    E. BACRY, S. DELATTRE, M. HOFFMANN, Jean francois MUZY, J.f. MUZY
    Stochastic Processes and their Applications | 2013
    Résumé Dans le contexte de la statistique des processus aléatoires, nous prouvons une loi des grands nombres et un théorème central limite fonctionnel pour les processus de Hawkes multivariés observés sur un intervalle de temps [ 0 , T ] lorsque T ? ? . Nous montrons en outre le comportement asymptotique de la covariation des incréments des composantes d'un processus de Hawkes multivarié, lorsque les observations sont imposées par un schéma discret avec une maille ? sur [ 0 , T ] jusqu'à un certain décalage temporel supplémentaire ? . Le comportement de cette fonctionnelle dépend de la taille relative de ? et ? par rapport à T et permet de rendre compte de la structure du second ordre. À titre d'application, nous développons nos résultats dans le contexte des statistiques financières. Nous avons introduit dans Bacry et al. (2013) [7] un modèle stochastique microscopique pour les variations d'un actif financier multivarié, basé sur les processus de Hawkes et qui est confiné à vivre sur une grille de ticks. Nous dérivons et caractérisons la limite de diffusion macroscopique exacte de ce modèle et montrons en particulier sa capacité à reproduire les faits stylisés empiriques importants tels que l'effet Epps et l'effet lead?lag. De plus, notre approche permet de suivre ces effets à travers les échelles en termes mathématiques rigoureux.
  • Modélisation du bruit de microstructure avec des processus ponctuels mutuellement excitants.

    Emmanuel BACRY, Sylvain DELATTRE, Marc HOFFMANN, Jean francois MUZY
    Quantitative Finance | 2013
    Nous introduisons un nouveau modèle stochastique pour les variations des prix des actifs au niveau tick-by-tick en dimension 1 (pour un seul actif) et 2 (pour une paire d'actifs). La construction est basée sur des processus de points marqués et s'appuie sur des inten- sités stochastiques linéaires auto- et mutuellement excitantes telles qu'introduites par Hawkes. Nous associons un processus de comptage aux sauts positifs et négatifs du prix d'un actif. En couplant convenablement les intensités stochastiques des variations à la hausse et à la baisse des prix de plusieurs actifs simultanément, nous pouvons reproduire le bruit de microstructure (i.e. une forte réversion moyenne microscopique au niveau de quelques secondes à quelques minutes) et l'effet Epps (i.e. la décorrélation des incréments aux échelles microscopiques) tout en préservant un comportement de diffusion brownien standard aux grandes échelles. Plus efficacement, nous obtenons des formules analytiques à forme fermée pour le tracé de la signature moyenne et la corrélation de deux incréments de prix qui permettent de suivre à travers les échelles l'effet de la réversion moyenne jusqu'à la limite diffusive du modèle. Nous montrons que les résultats théoriques sont cohérents avec les ajustements empiriques sur les contrats à terme Euro-Bund et Euro-Bobl dans plusieurs situations.
  • Modélisation du bruit de microstructure avec des processus ponctuels mutuellement excitants.

    Emmanuel BACRY, Sylvain DELATTRE, Marc HOFFMANN, Jean francois MUZY
    Quantitative Finance | 2013
    Pas de résumé disponible.
  • Inférence statistique à travers les échelles.

    Celine DUVAL, Marc HOFFMANN, Dominique PICARD, Marc HOFFMANN, Cristina BUTUCEA, Alexandre TSYBAKOV, Fabienne COMTE, Peter SPREIJ
    2012
    Cette thèse porte sur le problème d'estimation à travers les échelles pour un processus stochastique. Nous étudions comment le choix du pas d'échantillonnage impacte les procédures statistiques. Nous nous intéressons à l'estimation de processus à sauts à partir de l'observation d'une trajectoire discrétisée sur [0, T]. Lorsque la longueur de l'intervalle d'observation T va à l'infini, le pas d'échantillonnage tend soit vers 0 (échelle microscopique), vers une constante positive (échelle intermédiaire) ou encore vers l'infini (échelle macroscopique). Dans chacun de ces régimes nous supposons que le nombre d'observations tend vers l'infini. Dans un premier temps le cas particulier d'un processus de Poisson composé d'intensité inconnue avec des sauts symétriques {-1,1} est étudié. Le Chapitre 2 illustre la notion d'estimation statistique dans les trois échelles définies ci-dessus. Dans ce modèle, on s'intéresse aux propriétés des expériences statistiques. On montre la propriété de Normalité Asymptotique Locale dans les trois échelles microscopiques, intermédiaires et macroscopiques. L'information de Fisher est alors connue pour chacun de ces régimes. Ensuite nous analysons comment se comporte une procédure d'estimation de l'intensité qui est efficace (de variance minimale) à une échelle donnée lorsqu'on l'applique à des observations venant d'une échelle différente. On regarde l'estimateur de la variation quadratique empirique, qui est efficace dans le régime macroscopique, et on l'utilise sur des données provenant des régimes intermédiaire ou microscopique. Cet estimateur reste efficace dans les échelles microscopiques, mais montre une perte substantielle d'information aux échelles intermédiaires. Une procédure unifiée d'estimation est proposée, elle est efficace dans tous les régimes. Les Chapitres 3 et 4 étudient l'estimation non paramétrique de la densité de saut d'un processus renouvellement composé dans les régimes microscopiques, lorsque le pas d'échantillonnage tend vers 0. Un estimateur de cette densité utilisant des méthodes d'ondelettes est construit. Il est adaptatif et minimax pour des pas d'échantillonnage qui décroissent en T^{-alpha}, pour alpha>0. La procédure d'estimation repose sur l'inversion de l'opérateur de composition donnant la loi des incréments comme une transformation non linéaire de la loi des sauts que l'on cherche à estimer. L'opérateur inverse est explicite dans le cas du processus de Poisson composé (Chapitre 3), mais n'a pas d'expression analytique pour les processus de renouvellement composés (Chapitre 4). Dans ce dernier cas, il est approché via une technique de point fixe. Le Chapitre 5 étudie le problème de perte d'identifiabilité dans les régimes macroscopiques. Si un processus à sauts est observé avec un pas d'échantillonnage grand, certaines approximations limites, telles que l'approximation gaussienne, deviennent valides. Ceci peut entraîner une perte d'identifiabilité de la loi ayant généré le processus, dès lors que sa structure est plus complexe que celle étudiée dans le Chapitre 2. Dans un premier temps un modèle jouet à deux paramètres est considéré. Deux régimes différents émergent de l'étude : un régime où le paramètre n'est plus identifiable et un où il reste identifiable mais où les estimateurs optimaux convergent avec des vitesses plus lentes que les vitesses paramétriques habituelles. De l'étude de cas particulier, nous dérivons des bornes inférieures montrant qu'il n'existe pas d'estimateur convergent pour les processus de Lévy de saut pur ou pour les processus de renouvellement composés dans les régimes macroscopiques tels que le pas d'échantillonnage croît plus vite que racine de T. Enfin nous identifions des régimes macroscopiques où les incréments d'un processus de Poisson composé ne sont pas distinguables de variables aléatoires gaussiennes, et des régimes où il n'existe pas d'estimateur convergent pour les processus de Poisson composés dépendant de trop de paramètres.
  • Méthodes d'apprentissage automatique pour les flux discrets multi-échelles : application à la finance.

    Nicolas MAHLER, Nicolas VAYATIS, Marc HOFFMANN, Charles albert LEHALLE, Stephan CLEMENCON, Mathieu ROSENBAUM, Liva RALAIVOLA
    2012
    Ce travail de recherche traite du problème d'identification et de prédiction des tendances d'une série financière considérée dans un cadre multivarié. Le cadre d'étude de ce problème, inspiré de l'apprentissage automatique, est défini dans le chapitre I. L'hypothèse des marchés efficients, qui entre en contradiction avec l'objectif de prédiction des tendances, y est d'abord rappelée, tandis que les différentes écoles de pensée de l'analyse de marché, qui s'opposent dans une certaine mesure à l'hypothèse des marchés efficients, y sont également exposées. Nous explicitons les techniques de l'analyse fondamentale, de l'analyse technique et de l'analyse quantitative, et nous nous intéressons particulièrement aux techniques de l'apprentissage statistique permettant le calcul de prédictions sur séries temporelles. Les difficultés liées au traitement de facteurs temporellement dépendants et/ou non-stationnaires sont soulignées, ainsi que les pièges habituels du surapprentrissage et de la manipulation imprudente des données. Les extensions du cadre classique de l'apprentissage statistique, particulièrement l'apprentissage par transfert, sont présentées. La contribution principale de ce chapitre est l'introduction d'une méthodologie de recherche permettant le développement de modèles numériques de prédiction de tendances. Cette méthodologie est fondée sur un protocole d'expérimentation, constitué de quatre modules. Le premier module, intitulé Observation des Données et Choix de Modélisation, est un module préliminaire dévoué à l'expression de choix de modélisation, d'hypothèses et d'objectifs très généraux. Le second module, Construction de Bases de Données, transforme la variable cible et les variables explicatives en facteurs et en labels afin d'entraîner les modèles numériques de prédiction de tendances. Le troisième module, intitulé Construction de Modèles, a pour but la construction de modèles numériques de prédiction de tendances. Le quatrième et dernier module, intitulé Backtesting et Résultats Numériques, évalue la précision des modèles de prédiction de tendances sur un ensemble de test significatif, à l'aide de deux procédures génériques de backtesting. Le première procédure renvoie les taux de reconnaissance des tendances de hausse et de baisse. La seconde construit des règles de trading au moyen des predictions calculées sur l'ensemble de test. Le résultat (P&L) de chacune des règles de trading correspond aux gains et aux pertes accumulés au cours de la période de test. De plus, ces procédures de backtesting sont complétées par des fonctions d'interprétation, qui facilite l'analyse du mécanisme décisionnel des modèles numériques. Ces fonctions peuvent être des mesures de la capacité de prédiction des facteurs, ou bien des mesures de fiabilité des modèles comme des prédictions délivrées. Elles contribuent de façon décisive à la formulation d'hypothèses mieux adaptées aux données, ainsi qu'à l'amélioration des méthodes de représentation et de construction de bases de données et de modèles. Ceci est explicité dans le chapitre IV. Les modèles numériques, propres à chacune des méthodes de construction de modèles décrites au chapitre IV, et visant à prédire les tendances des variables cibles introduites au chapitre II, sont en effet calculés et backtestés. Les raisons du passage d'une méthode de construction de modèles à une autre sont particulièrement étayées. L'influence du choix des paramètres - et ceci à chacune des étapes du protocole d'expérimentation - sur la formulation de conclusions est elle aussi mise en lumière. La procédure PPVR, qui ne requiert aucun calcul annexe de paramètre, a ainsi été utilisée pour étudier de façon fiable l'hypothèse des marchés efficients. De nouvelles directions de recherche pour la construction de modèles prédictifs sont finalement proposées.
  • Analyse statistique des processus de marche aléatoire multifractale.

    Laurent DUVERNET, Marc HOFFMANN, Stephane JAFFARD, Marc HOFFMANN, Emmanuel BACRY, Vincent VARGAS, Julien BARRAL, Carenne LUDENA
    2010
    On étudie certaines propriétés d'une classe de processus aléatoires réels à temps continu, les marches aléatoires multifractales. Une particularité remarquable de ces processus tient en leur propriété d'autosimilarité : la loi du processus à petite échelle est identique à celle à grande échelle moyennant un facteur aléatoire multiplicatif indépendant du processus. La première partie de la thèse se consacre à la question de la convergence du moment empirique de l'accroissement du processus dans une asymptotique assez générale, où le pas de l'accroissement peut tendre vers zéro en même temps que l'horizon d'observation tend vers l'infini. La deuxième partie propose une famille de tests non-paramétriques qui distinguent entre marches aléatoires multifractales et semi-martingales d'Itô. Après avoir montré la consistance de ces tests, on étudie leur comportement sur des données simulées. On construit dans la troisième partie un processus de marche aléatoire multifractale asymétrique tel que l'accroissement passé soit négativement corrélé avec le carré de l'accroissement futur. Ce type d'effet levier est notamment observé sur les prix d'actions et d'indices financiers. On compare les propriétés empiriques du processus obtenu avec des données réelles. La quatrième partie concerne l'estimation des paramètres du processus. On commence par montrer que sous certaines conditions, deux des trois paramètres ne peuvent être estimés. On étudie ensuite les performances théoriques et empiriques de différents estimateurs du troisième paramètre, le coefficient d'intermittence, dans un cas gaussien.
  • Étude de quelques problèmes d'estimation statistique en finance.

    Mathieu ROSENBAUM, Marc HOFFMANN
    2007
    Cette thèse traite plusieurs problèmes de finance statistique et se compose de quatre parties. Dans la première partie, on étudie la question de l'estimation de la persistance de la volatilité à partir d'observations discrètes d'un modèle de diffusion sur un intervalle [0,T], où T est un temps objectif fixé. Pour cela, on introduit un mouvement brownien fractionnaire d'indice de Hurst H dans la dynamique de la volatilité. On construit une procédure d'estimation du paramètre H à partir des données haute fréquence de la diffusion. On montre que la précision de notre estimateur est n^{-1/(4H+2)}, où n est la fréquence d'observation et on prouve son optimalité au sens minimax. Ces considérations théoriques sont suivies d'une étude numérique sur données simulées et données financières. La seconde partie de la thèse traite de la problématique du bruit de microstructure. Pour cela, on considère les observations à la fréquence n et avec erreur d'arrondi α_n tendant vers zéro, d'un modèle de diffusion sur un intervalle [0,T], où T est un temps objectif fixé. On propose dans ce cadre des estimateurs de la volatilité intégrée de l'actif dont on montre que la précision est max(α_n, n^{-1/2}). On obtient par ailleurs des théorèmes centraux limites dans le cas de diffusions homogènes. Cette étude théorique est ici aussi suivie d'une étude numérique sur données simulées et données financières. On établit dans la troisième partie de cette thèse une caractérisation simple des espaces de Besov et on l'utilise pour démontrer de nouvelles propriétés de régularité pour certains processus stochastiques. Cette partie peut paraître déconnectée des problèmes de finance statistique mais a été inspiratrice pour la partie 4 de la thèse. On construit dans la dernière partie de la thèse un nouvel indice de bruit de microstructure et on l'étudie sur des données financières. Cet indice, dont le calcul se base sur les p-variations de l'actif considéré à différentes échelles de temps, peut être interprété en terme d'espaces de Besov. Comparé aux autres indices, il semble posséder plusieurs avantages. En particulier, il permet de mettre en évidence des phénomènes originaux comme une certaine forme de régularité additionnelle dans les échelles les plus fines. On montre que ces phénomènes peuvent être partiellement reproduits par des modèles de bruit de microstructure additif ou de diffusion avec erreur d'arrondi. Néanmoins, une reproduction fidèle semble nécessiter soit une combinaison de deux formes d'erreur, soit une forme sophistiquée d'erreur d'arrondi.
  • Régression non-paramétrique et information spatialement inhomogène.

    Stephane GAIFFAS, Marc HOFFMANN
    2005
    Pas de résumé disponible.
  • Méthodes adaptatives pour l'estimation non-paramétrique des coefficients d'une diffusion.

    Marc HOFFMANN, Dominique PICARD
    1996
    On etudie le probleme de l'estimation non-parametrique des coefficients d'une diffusion uni-dimensionnelle pour une observation discrete de la trajectoire dans le cadre de la theorie minimax. On considere principalement deux asymptotiques: diffusions observees sur un intervalle de temps fixe (on estime alors le coefficient de diffusion, qu'il depende du temps ou de l'espace) et diffusions stationnaires sur un intervalle de temps qui croit avec le nombre d'observations (on estime simultanement le coefficient de derive et le coefficient de diffusion). On calcule les vitesses minimax lorsque le parametre inconnu est sujet a une contrainte de type besov. La methode est basee sur une approximation des modeles de diffusion par des schemas de regression, et permet de mettre en uvre les techniques de seuillage des coefficients d'ondelettes utilisees par donoho, johnstone, kerkyacharian et picard pour les modeles de densite ou regression.
Les affiliations sont détectées à partir des signatures des publications identifiées dans scanR. Un auteur peut donc apparaître affilié à plusieurs structures ou tutelles en fonction de ces signatures. Les dates affichées correspondent seulement aux dates des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr