Exploration adaptative sans récompense.

Auteurs
  • KAUFMANN Emilie
  • MENARD Pierre
  • DARWICHE DOMINGUES Omar
  • JONSSON Anders
  • LEURENT Edouard
  • VALKO Michal
Date de publication
2020
Type de publication
Autre
Résumé L'exploration sans récompense est un cadre d'apprentissage par renforcement récemment étudié par Jin et al. qui l'abordent en exécutant plusieurs algorithmes avec des garanties de regret en parallèle. Dans notre travail, nous proposons plutôt une approche plus adaptative pour l'exploration sans récompense qui réduit directement les limites supérieures de l'erreur maximale d'estimation du MDP. Nous montrons que, de manière intéressante, notre algorithme UCRL sans récompense peut être considéré comme une variante d'un algorithme de Fiechter de 1994 [11], proposé à l'origine pour un objectif différent que nous appelons identification de la meilleure politique. Nous prouvons que RF-UCRL a besoin de O (SAH 4 /ε 2) log(1/δ) épisodes pour produire, avec une probabilité de 1 - δ, une ε-approximation de la politique optimale pour toute fonction de récompense. Nous la comparons empiriquement à des stratégies oracle utilisant un modèle génératif.
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr