Similitudes entre les méthodes de gradient de politique (PGM) dans l'apprentissage par renforcement (RL) et l'apprentissage supervisé (SL).

Auteurs Date de publication
2019
Type de publication
Article de journal
Résumé L'apprentissage par renforcement (RL) concerne la prise de décision séquentielle et est traditionnellement opposé à l'apprentissage supervisé (SL) et à l'apprentissage non supervisé (USL). Dans l'apprentissage par renforcement, étant donné l'état actuel, l'agent prend une décision qui peut influencer l'état suivant, contrairement à l'apprentissage par lots (et à l'apprentissage non supervisé) où l'état suivant reste le même, quelles que soient les décisions prises. Bien que cette différence soit fondamentale entre SL et RL, il existe des connexions qui ont été négligées. En particulier, nous prouvons dans cet article que la méthode de la politique du gradient peut être considérée comme un problème d'apprentissage supervisé où les étiquettes réelles sont remplacées par des récompenses actualisées. Nous fournissons une nouvelle preuve des méthodes de gradient de politique (MGP) qui souligne le lien étroit avec l'entropie croisée et l'apprentissage supervisé. Nous fournissons une expérience simple où nous échangeons les étiquettes et les pseudo-récompenses. Nous concluons que d'autres relations avec SL pourraient être établies si nous modifions judicieusement les fonctions de récompense.
Éditeur
Elsevier BV
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr