Une approche basée sur les noyaux pour l'apprentissage par renforcement non stationnaire dans les espaces métriques.

Auteurs

DOMINGUES Omar
MENARD Pierre
PIROTTA Matteo
KAUFMANN Emilie
VALKO Michal

Date de publication

2021

Type de publication

Article de conférence

Résumé Dans ce travail, nous proposons KeRNS : un algorithme pour l'apprentissage par renforcement épisodique dans les processus de décision de Markov (PDM) non stationnaires dont l'ensemble état-action est doté d'une métrique. En utilisant un modèle non-paramétrique du MDP construit avec des noyaux dépendant du temps, nous prouvons une limite de regret qui s'échelonne avec la dimension de recouvrement de l'espace des actions d'état et la variation totale du MDP avec le temps, qui quantifie son niveau de non-stationnarité. Notre méthode généralise les approches précédentes basées sur les fenêtres glissantes et l'actualisation exponentielle utilisées pour gérer les environnements changeants. Nous proposons ensuite une implémentation pratique de KeRNS, nous analysons son regret et le validons expérimentalement.

Voir la publication

Thématiques de la publication

Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr