L'apprentissage non supervisé en haute dimension.

Auteurs
  • SEBBAR Mehdi
  • DALALYAN Arnak s.
  • TSYBAKOV Alexandre b.
  • DALALYAN Arnak s.
  • TSYBAKOV Alexandre b.
  • RIVOIRARD Vincent
  • MARTEAU Cl?ment
  • MEZIANI Katia
  • ROLET Philippe
  • RIVOIRARD Vincent
  • MARTEAU Cl?ment
Date de publication
2017
Type de publication
Thèse
Résumé Dans ce m?moire de th?se, nous abordons deux th?mes, le clustering en haute dimension d'une part et l'estimation de densit?s de m?lange d'autre part. Le premier chapitre est une introduction au clustering. Nous y pr?sentons diff?rentes m?thodes r?pandues et nous nous concentrons sur un des principaux mod?les de notre travail qui est le m?lange de Gaussiennes. Nous abordons aussi les probl?mes inh?rents ? l'estimation en haute dimension et la difficult? d'estimer le nombre de clusters. Nous exposons bri?vement ici les notions abord?es dans ce manuscrit. Consid?rons une loi m?lange de K Gaussiennes dans R^p. Une des approches courantes pour estimer les param?tres du m?lange est d'utiliser l'estimateur du maximum de vraisemblance. Ce probl?me n'?tant pas convexe, on ne peut garantir la convergence des m?thodes classiques. Cependant, en exploitant la biconvexit? de la log-vraisemblance n?gative, on peut utiliser la proc?dure it?rative 'Expectation-Maximization' (EM). Malheureusement, cette m?thode n'est pas bien adapt?e pour relever les d?fis pos?s par la grande dimension. Par ailleurs, cette m?thode requiert de conna?tre le nombre de clusters. Le Chapitre 2 pr?sente trois m?thodes que nous avons d?velopp?es pour tenter de r?soudre les probl?mes d?crits pr?c?demment. Les travaux qui y sont expos?s n'ont pas fait l'objet de recherches approfondies pour diverses raisons. La premi?re m?thode, 'lasso graphique sur des m?langes de Gaussiennes', consiste ? estimer les matrices inverses des matrices de covariance dans l'hypoth?se o? celles-ci sont parcimonieuses. Nous adaptons la m?thode du lasso graphique de [Friedman et al., 2007] sur une composante dans le cas d'un m?lange et nous ?valuons exp?rimentalement cette m?thode. Les deux autres m?thodes abordent le probl?me d'estimation du nombre de clusters dans le m?lange. La premi?re est une estimation p?nalis?e de la matrice des probabilit?s post?rieures dont la composante (i,j) est la probabilit? que la i-?me observation soit dans le j-?me cluster. Malheureusement, cette m?thode s'est av?r?e trop co?teuse en complexit?. Enfin, la deuxi?me m?thode consid?r?e consiste ? p?naliser le vecteur de poids afin de le rendre parcimonieux. Cette m?thode montre des r?sultats prometteurs. Dans le Chapitre 3, nous ?tudions l'estimateur du maximum de vraisemblance d'une densit? de n observations i.i.d. sous l?hypoth?se qu'elle est bien approxim?e par un m?lange de plusieurs densit?s donn?es. Nous nous int?ressons aux performances de l'estimateur par rapport ? la perte de Kullback-Leibler. Nous ?tablissons des bornes de risque sous la forme d'in?galit?s d'oracle exactes, que ce soit en probabilit? ou en esp?rance. Nous d?montrons ? travers ces bornes que, dans le cas du probl?me d?agr?gation convexe, l'estimateur du maximum de vraisemblance atteint la vitesse (log K)/n)^{1/2}, qui est optimale ? un terme logarithmique pr?s, lorsque le nombre de composant est plus grand que n^{1/2}. Plus important, sous l?hypoth?se suppl?mentaire que la matrice de Gram des composantes du dictionnaire satisfait la condition de compatibilit?, les in?galit?s d'oracles obtenues donnent la vitesse optimale dans le sc?nario parcimonieux. En d'autres termes, si le vecteur de poids est (presque) D-parcimonieux, nous obtenons une vitesse (Dlog K)/n. En compl?ment de ces in?galit?s d'oracle, nous introduisons la notion d?agr?gation (presque)-D-parcimonieuse et ?tablissons pour ce type d?agr?gation les bornes inf?rieures correspondantes. Enfin, dans le Chapitre 4, nous proposons un algorithme qui r?alise l'agr?gation en Kullback-Leibler de composantes d'un dictionnaire telle qu'?tudi?e dans le Chapitre 3. Nous comparons sa performance avec diff?rentes m?thodes. Nous proposons ensuite une m?thode pour construire le dictionnaire de densit?s et l??tudions de mani?re num?rique. Cette th?se a ?t? effectu? dans le cadre d?une convention CIFRE avec l?entreprise ARTEFACT.
Thématiques de la publication
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr