Apprentissage actif rapide pour l'exploration pure en apprentissage par renforcement.

Auteurs
  • MENARD Pierre
  • DOMINGUES Omar
  • JONSSON Anders
  • KAUFMANN Emilie
  • LEURENT Edouard
  • VALKO Michal
Date de publication
2020
Type de publication
report
Résumé Les environnements réalistes fournissent souvent aux agents un feedback très limité. Lorsque l'environnement est initialement inconnu, le retour d'information, au début, peut être complètement absent, et les agents peuvent d'abord choisir de consacrer tous leurs efforts à une exploration efficace. L'exploration reste un défi, bien qu'elle ait été abordée d'une part avec de nombreuses heuristiques réglées à la main avec différents niveaux de généralité, et d'autre part avec quelques stratégies d'exploration fondées sur la théorie. Beaucoup d'entre elles sont incarnées par la motivation intrinsèque et en particulier les bonus d'exploration. Une règle empirique commune pour les bonus d'exploration est d'utiliser 1/ √ n bonus qui est ajouté aux estimations empiriques de la récompense, où n est un nombre de fois que cet état particulier (ou une paire état-action) a été visité. Nous montrons que, de manière surprenante, pour un objectif d'exploration pure sans récompense, les bonus qui s'échelonnent avec 1/n apportent des taux d'apprentissage plus rapides, améliorant les limites supérieures connues par rapport à la dépendance de l'horizon H. De plus, nous montrons qu'avec une analyse améliorée du temps d'arrêt, nous pouvons améliorer d'un facteur H la complexité de l'échantillon dans le cadre de l'identification de la meilleure politique, qui est un autre objectif d'exploration pure, où l'environnement fournit des récompenses mais l'agent n'est pas pénalisé pour son comportement pendant la phase d'exploration.
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr