DUPUY Christophe

< Retour à ILB Patrimoine

Thématiques des productions

Apprentissage en ligne
Apprentissage non supervisé
Modèles thèmatiques
Allocation de Dirichlet latente
Modèles à variables latentes
Processus ponctuels determinantaux
...

Affiliations

2016 - 2017

Communauté d'universités et établissements Université de Recherche Paris Sciences et Lettres
2014 - 2017

Technicolor r&d france snc
2016 - 2017

Ecole normale supérieure Paris
2016 - 2017

Sciences mathematiques de paris centre
2016 - 2017

Département d'Informatique de l'Ecole Normale Supérieure
2014 - 2017

Apprentissage statistique et parcimonie

2017
Inférence et applications pour les modèles thématiques.
Inférence en ligne mais précise pour les modèles à variables latentes avec échantillonnage de Gibbs local.
2016
Apprentissage de processus ponctuels déterminants en temps sous-linéaire.
2015
Exploiter les critiques de la foule pour expliquer la recommandation de films.

Inférence et applications pour les modèles thématiques.

Christophe DUPUY, Francis BACH, Olivier CAPPE, Francis BACH, Olivier CAPPE, Francois CARON, Michalis TITSIAS, Patrick PEREZ, Christophe DIOT, Alexandre d ASPREMONT, Francois CARON, Michalis TITSIAS

2017

La plupart des systèmes de recommandation actuels se base sur des évaluations sous forme de notes (i.e., chiffre entre 0 et 5) pour conseiller un contenu (film, restaurant.) à un utilisateur. Ce dernier a souvent la possibilité de commenter ce contenu sous forme de texte en plus de l'évaluer. Il est difficile d'extraire de l'information d'un texte brut tandis qu'une simple note contient peu d'information sur le contenu et l'utilisateur. Dans cette thèse, nous tentons de suggérer à l'utilisateur un texte lisible personnalisé pour l'aider à se faire rapidement une opinion à propos d'un contenu. Plus spécifiquement, nous construisons d'abord un modèle thématique prédisant une description de film personnalisée à partir de commentaires textuels. Notre modèle sépare les thèmes qualitatifs (i.e., véhiculant une opinion) des thèmes descriptifs en combinant des commentaires textuels et des notes sous forme de nombres dans un modèle probabiliste joint. Nous évaluons notre modèle sur une base de données IMDB et illustrons ses performances à travers la comparaison de thèmes. Nous étudions ensuite l'inférence de paramètres dans des modèles à variables latentes à grande échelle, incluant la plupart des modèles thématiques. Nous proposons un traitement unifié de l'inférence en ligne pour les modèles à variables latentes à partir de familles exponentielles non-canoniques et faisons explicitement apparaître les liens existants entre plusieurs méthodes fréquentistes et Bayesiennes proposées auparavant. Nous proposons aussi une nouvelle méthode d'inférence pour l'estimation fréquentiste des paramètres qui adapte les méthodes MCMC à l'inférence en ligne des modèles à variables latentes en utilisant proprement un échantillonnage de Gibbs local. Pour le modèle thématique d'allocation de Dirichlet latente, nous fournissons une vaste série d'expériences et de comparaisons avec des travaux existants dans laquelle notre nouvelle approche est plus performante que les méthodes proposées auparavant. Enfin, nous proposons une nouvelle classe de processus ponctuels déterminantaux (PPD) qui peut être manipulée pour l'inférence et l'apprentissage de paramètres en un temps potentiellement sous-linéaire en le nombre d'objets. Cette classe, basée sur une factorisation spécifique de faible rang du noyau marginal, est particulièrement adaptée à une sous-classe de PPD continus et de PPD définis sur un nombre exponentiel d'objets. Nous appliquons cette classe à la modélisation de documents textuels comme échantillons d'un PPD sur les phrases et proposons une formulation du maximum de vraisemblance conditionnel pour modéliser les proportions de thèmes, ce qui est rendu possible sans aucune approximation avec notre classe de PPD. Nous présentons une application à la synthèse de documents avec un PPD sur 2 à la puissance 500 objets, où les résumés sont composés de phrases lisibles.

Plus d'informations Voir la publication

Inférence en ligne mais précise pour les modèles à variables latentes avec échantillonnage de Gibbs local.

Christophe DUPUY, Francis BACH

Journal of Machine Learning Research | 2017

Nous étudions l'inférence des paramètres dans les modèles à variables latentes à grande échelle. Nous proposons d'abord un traitement unifié de l'inférence en ligne pour les modèles à variables latentes d'une famille exponentielle non canonique, et établissons des liens explicites entre plusieurs méthodes fréquentistes ou bayésiennes proposées précédemment. Nous proposons ensuite une nouvelle méthode d'inférence pour l'estimation fréquentiste des paramètres, qui adapte les méthodes MCMC à l'inférence en ligne des modèles à variables latentes avec l'utilisation appropriée de l'échantillonnage local de Gibbs. Ensuite, pour l'allocation latente Dirich-let, nous fournissons un ensemble étendu d'expériences et de comparaisons avec les travaux existants, où notre nouvelle approche surpasse toutes les méthodes proposées précédemment. En particulier, l'utilisation de l'échantillonnage de Gibbs pour l'inférence des variables latentes est supérieure à l'inférence variationnelle en termes de log-vraisemblance de test. De plus, l'inférence bayésienne par des méthodes variationnelles donne de mauvais résultats, conduisant parfois à de moins bons ajustements avec des variables latentes de plus grande dimension.

Plus d'informations

Apprentissage de processus ponctuels déterminants en temps sous-linéaire.

Christophe DUPUY, Francis BACH

2016

Nous proposons une nouvelle classe de processus ponctuels déterminants (DPPs) qui peuvent être manipulés pour l'inférence et l'apprentissage de paramètres en un temps potentiellement sublinéaire dans le nombre d'items. Cette classe, basée sur une factorisation spécifique de bas rang du noyau marginal, est particulièrement adaptée à une sous-classe de DPPs continus et de DPPs définis sur un nombre exponentiel d'items. Nous appliquons cette nouvelle classe à la modélisation de documents textuels comme échantillonnage d'un DPP de phrases, et nous proposons une formulation de maximum de vraisemblance conditionnelle pour modéliser les proportions de sujets, ce qui est possible sans approximation pour notre classe de DPP. Nous présentons une application au résumé de documents avec un DPP sur $2^{500}$ items.

Plus d'informations

Exploiter les critiques de la foule pour expliquer la recommandation de films.

Sara EL AOUAD, Christophe DUPUY, Renata TEIXEIRA, Christophe DIOT, Francis BACH

2nd Workshop on Recommendation Systems for TELEVISION and ONLINE VIDEO | 2015

Les services de streaming tels que Netflix, M-Go et Hulu utilisent des systèmes de recommandation avancés pour aider leurs clients à identifier rapidement et facilement les contenus pertinents. Ces systèmes de recommandation affichent la liste des films recommandés organisée en sous-listes étiquetées avec le genre ou des étiquettes plus spécifiques. Malheureusement, les méthodes existantes pour extraire ces sous-listes étiquetées nécessitent des annotateurs humains pour étiqueter manuellement les films, ce qui prend du temps et est biaisé par les opinions des annotateurs. Dans cet article, nous concevons une méthode qui s'appuie sur les critiques de la foule pour identifier automatiquement des groupes de films similaires et étiqueter ces groupes. Notre méthode utilise le contenu des critiques de films disponibles en ligne comme entrée pour un algorithme basé sur l'allocation de Dirichlet latente (LDA) qui identifie les groupes de films similaires. Nous séparons l'ensemble des films similaires qui partagent la même combinaison de genres en sous-listes et personnalisons les films à montrer dans chaque sous-liste en utilisant la factorisation matricielle. Les résultats d'une comparaison côte à côte de notre méthode avec le service de VoD M-Go de Technicolor sont encourageants.

Plus d'informations

Les affiliations sont détectées à partir des signatures des publications identifiées dans scanR. Un auteur peut donc apparaître affilié à plusieurs structures ou tutelles en fonction de ces signatures. Les dates affichées correspondent seulement aux dates des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr