Similitudes entre les méthodes de gradient de politique (PGM) dans l'apprentissage par renforcement (RL) et l'apprentissage supervisé (SL).

Auteurs

BENHAMOU Eric

Date de publication

2019

Type de publication

Article de journal

Résumé L'apprentissage par renforcement (RL) concerne la prise de décision séquentielle et est traditionnellement opposé à l'apprentissage supervisé (SL) et à l'apprentissage non supervisé (USL). Dans l'apprentissage par renforcement, étant donné l'état actuel, l'agent prend une décision qui peut influencer l'état suivant, contrairement à l'apprentissage par lots (et à l'apprentissage non supervisé) où l'état suivant reste le même, quelles que soient les décisions prises. Bien que cette différence soit fondamentale entre SL et RL, il existe des connexions qui ont été négligées. En particulier, nous prouvons dans cet article que la méthode de la politique du gradient peut être considérée comme un problème d'apprentissage supervisé où les étiquettes réelles sont remplacées par des récompenses actualisées. Nous fournissons une nouvelle preuve des méthodes de gradient de politique (MGP) qui souligne le lien étroit avec l'entropie croisée et l'apprentissage supervisé. Nous fournissons une expérience simple où nous échangeons les étiquettes et les pseudo-récompenses. Nous concluons que d'autres relations avec SL pourraient être établies si nous modifions judicieusement les fonctions de récompense.

Éditeur

Elsevier BV

Voir la publication

Thématiques de la publication

Pas de thématiques identifiées

Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr