Limites de regret pour l'apprentissage par renforcement basé sur le noyau.

Auteurs
Date de publication
2020
Type de publication
Autre
Résumé Nous considérons le dilemme exploration-exploitation dans les problèmes d'apprentissage par renforcement à horizon fini dont l'espace état-action est doté d'une métrique. Nous présentons Kernel-UCBVI, un algorithme optimiste basé sur un modèle qui exploite la fluidité du MDP et un estimateur à noyau non paramétrique des récompenses et des transitions pour équilibrer efficacement l'exploration et l'exploitation. Contrairement aux approches existantes avec des garanties de regret, il n'utilise aucun type de partitionnement de l'espace état-action. Pour les problèmes avec K épisodes et un horizon H, nous fournissons une limite de regret de O H 3 K max(1 2 , 2d 2d+1) , où d est la dimension de couverture de l'espace état-action conjoint. Nous validons empiriquement Kernel-UCBVI sur des MDPs discrets et continus.
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr