Similitudes entre les méthodes de gradient de politique (PGM) dans l'apprentissage par renforcement (RL) et l'apprentissage supervisé (SL).

Auteurs Date de publication
2020
Type de publication
Autre
Résumé L'apprentissage par renforcement (RL) concerne la prise de décision séquentielle et est traditionnellement opposé à l'apprentissage supervisé (SL) et à l'apprentissage non supervisé (USL). Dans l'apprentissage par renforcement, étant donné l'état actuel, l'agent prend une décision qui peut influencer l'état suivant, contrairement à l'apprentissage par lots (et à l'apprentissage non supervisé) où l'état suivant reste le même, quelles que soient les décisions prises, que ce soit dans le cadre d'un apprentissage par lots ou en ligne. Bien que cette différence soit fondamentale entre SL et RL, il existe des connexions qui ont été négligées. En particulier, nous prouvons dans cet article que la méthode de la politique du gradient peut être considérée comme un problème d'apprentissage supervisé où l'étiquette réelle est remplacée par des récompenses actualisées. Nous fournissons une nouvelle preuve des méthodes de gradient de politique (MGP) qui souligne le lien étroit avec l'entropie croisée et l'apprentissage supervisé. Nous fournissons une expérience simple où nous échangeons les étiquettes et les pseudo-récompenses. Nous concluons que d'autres relations avec SL pourraient être établies si nous modifions judicieusement les fonctions de récompense.
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr