Programmes
Evénements
Articles
Transition
Transition numérique
Transition environnementale
Transition financière
Transition démographique
Nous considérons le problème de l'exploration efficace des bras d'un bandit stochastique pour identifier le meilleur sous-ensemble d'une taille spécifiée. Sous les formulations PAC et à budget fixe, nous dérivons des bornes améliorées en utilisant des intervalles de confiance basés sur la divergence KL. Alors que l'application d'une idée similaire dans le cadre du regret a donné des limites en termes de divergence KL entre les bras, nos limites dans le cadre de l'exploration pure impliquent l'"information de Chernoff" entre les bras. En plus d'introduire cette nouvelle quantité dans la littérature sur les bandits, nous contribuons à une comparaison entre les stratégies basées sur l'échantillonnage uniforme et adaptatif pour les problèmes d'exploration pure, trouvant des preuves en faveur de la seconde.
L'échantillonnage de Thompson a été démontré dans de nombreux modèles de bandits complexes, cependant les garanties théoriques disponibles pour le bandit multi-armé paramétrique sont encore limitées au cas de Bernoulli. Ici, nous les étendons en prouvant l'optimalité asymptotique de l'algorithme en utilisant la priorisation de Jeffreys pour les bandits à famille exponentielle unidimensionnelle. Notre preuve s'appuie sur des travaux antérieurs, mais fait également un usage intensif des formes fermées de la divergence de Kullback-Leibler et de l'information de Fisher (par le biais de la priorité de Jeffreys) disponibles dans une famille exponentielle. Cela nous permet de donner une inégalité de concentration exponentielle en temps fini pour les distributions postérieures sur les familles exponentielles qui peut être intéressante en soi. De plus, notre analyse couvre certaines distributions pour lesquelles aucun algorithme optimiste n'a encore été proposé, notamment les familles exponentielles à queue lourde.
Votre nom* Votre email* Votre message*
*champs obligatoires