Une approche basée sur les noyaux pour l'apprentissage par renforcement non stationnaire dans les espaces métriques.

Auteurs
Date de publication
2021
Type de publication
Article de conférence
Résumé Dans ce travail, nous proposons KeRNS : un algorithme pour l'apprentissage par renforcement épisodique dans les processus de décision de Markov (PDM) non stationnaires dont l'ensemble état-action est doté d'une métrique. En utilisant un modèle non-paramétrique du MDP construit avec des noyaux dépendant du temps, nous prouvons une limite de regret qui s'échelonne avec la dimension de recouvrement de l'espace des actions d'état et la variation totale du MDP avec le temps, qui quantifie son niveau de non-stationnarité. Notre méthode généralise les approches précédentes basées sur les fenêtres glissantes et l'actualisation exponentielle utilisées pour gérer les environnements changeants. Nous proposons ensuite une implémentation pratique de KeRNS, nous analysons son regret et le validons expérimentalement.
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr