Échantillonnage de Thompson pour les bandits à famille exponentielle unidimensionnelle.

Auteurs

KORDA Nathaniel
KAUFMANN Emilie
MUNOS Remi

Date de publication

2013

Type de publication

Article de conférence

Résumé L'échantillonnage de Thompson a été démontré dans de nombreux modèles de bandits complexes, cependant les garanties théoriques disponibles pour le bandit paramétrique à bras multiples sont encore limitées au cas de Bernoulli. Nous les étendons ici en prouvant l'optimalité asymptotique de l'algorithme en utilisant la priorité de Jeffreys pour les bandits de la famille exponentielle à une dimension. Notre preuve s'appuie sur des travaux antérieurs, mais fait également un usage intensif des formes fermées pour la divergence de Kullback-Leibler et l'information de Fisher (et donc la priorité de Jeffreys) disponibles dans une famille exponentielle. Cela nous permet de donner une inégalité de concentration exponentielle en temps fini pour les distributions postérieures sur les familles exponentielles qui peut être intéressante en soi. De plus, notre analyse couvre certaines distributions pour lesquelles aucun algorithme optimiste n'a encore été proposé, notamment les familles exponentielles à queue lourde.

Voir la publication

Thématiques de la publication

Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr