Estimation des moindres carrés d'une densité discrète sous contrainte de k-monotonie et bornes de risque. Application à l'estimation du nombre d'espèces dans une population.

Auteurs
  • GIGUELAY Jade
  • GIRAUD Christophe
  • MASSART Pascal
  • GIRAUD Christophe
  • MASSART Pascal
  • BALABDAOUI Fadoua
  • HUET Sylvie
  • DUROT Cecile
  • LAURENT Beatrice
  • BALABDAOUI Fadoua
  • BUNGE John
Date de publication
2017
Type de publication
Thèse
Résumé Cette thèse est une contribution au domaine de l'estimation non-paramétrique sous contrainte de forme. Les fonctions sont discrètes et la forme considérée, appelée k-monotonie, k désignant un entier supérieur à 2, est une généralisation de la convexité. L'entier k constitue un indicateur du degré de creux d'une fonction convexe. Le manuscrit est structuré en trois parties en plus de l'introduction, de la conclusion et d'une annexe.Introduction :L'introduction comprend trois chapitres. Le premier présente un état de l'art de l'estimation de densité sous contrainte de forme. Le second est une synthèse des résultats obtenus au cours de la thèse, disponible en français et en anglais. Enfin, le Chapitre 3 regroupe quelques notations et des résultats mathématiques utilisés au cours du manuscrit.Partie I : Estimation d'une densité discrète sous contrainte de k-monotonieDeux estimateurs des moindres carrés d'une distribution discrète p* sous contrainte de k-monotonie sont proposés. Leur caractérisation est basée sur la décomposition en base de spline des suites k-monotones, et sur les propriétés de leurs primitives. Les propriétés statistiques de ces estimateurs sont étudiées. Leur qualité d'estimation, en particulier, est appréciée. Elle est mesurée en terme d'erreur quadratique, les deux estimateurs convergent à la vitesse paramétrique. Un algorithme dérivé de l'Algorithme de Réduction de Support est implémenté et disponible au R-package pkmon. Une étude sur jeux de données simulés illustre les propriétés de ces estimateurs. Ce travail a été publié dans Electronic Journal of Statistics (Giguelay, 2017).Partie II : Calculs de bornes de risqueDans le premier chapitre de la Partie II, le risque quadratique de l'estimateur des moindres carrés introduit précédemment est borné. Cette borne est adaptative en le sens qu'elle dépend d'un compromis entre la distance de p* à la frontière de l'ensemble des densités k-monotones à support fini, et de la complexité (en terme de décomposition dans la base de spline) des densités appartenant à cet ensemble qui sont suffisamment proches de p*. La méthode est basée sur une formulation variationnelle du risque proposée par Chatterjee (2014) etgénéralisée au cadre de l'estimation de densité. Par la suite, les entropies à crochet des espaces fonctionnels correspondants sont calculées afin de contrôler le supremum de processus empiriques impliqué dans l'erreur quadratique. L'optimalité de la borne de risque est ensuite discutée au regard des résultats obtenus dans le cas continu et dans le cadre de la régression.Dans le second chapitre de la Partie II, des résultats complémentaires sur les entropies à crochet pour les espaces de fonctions k-monotones sont donnés.Partie III : Estimation du nombre d'espèces dans une population et tests de k-monotonieLa dernière partie traite du problème de l'estimation du nombre d'espèces dans une population. La modélisation choisie est celle d'une distribution d'abondance commune à toutes les espèces et définie comme un mélange. La méthode proposée repose sur l'hypothèse de k-monotonie d'abondance. Cette hypothèse permet de rendre le problème de l'estimation du nombre d'espèces identifiable. Deux approches sont proposées. La première est basée sur l'estimateur des moindres carrés sous contrainte de k-monotonie, tandis que la seconde est basée sur l'estimateur empirique. Les deux estimateurs sont comparés sur une étude sur données simulées. L'estimation du nombre d'espèces étant fortement dépendante du degré de k-monotonie choisi dans le modèle, trois procédures de tests multiples sont ensuite proposées pour inférer le degré k directement sur la base des observations. Le niveau et la puissance de ces procédures sont calculés, puis évalués au moyen d'une étude sur jeux de données simulés et la méthode est appliquée sur des jeux de données réels issus de la littérature.
Thématiques de la publication
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr