Réduction de la variance dans les méthodes de critique d'acteurs (ACM).

Auteurs Date de publication
2019
Type de publication
Article de journal
Résumé Après avoir présenté les méthodes Actor Critic (ACM), nous montrons que les ACM sont des estimateurs de variate de contrôle. En utilisant le théorème de projection, nous prouvons que les méthodes Q et Advantage Actor Critic (A2C) sont optimales au sens de la norme L 2 pour les estimateurs de la variante de contrôle englobés par les fonctions conditionnées par l'état et l'action actuels. Cette application directe du théorème de Pythagore fournit une justification théorique de la forte performance des méthodes QAC et AAC, le plus souvent appelées méthodes A2C, dans les méthodes de gradient de politique profonde. Cela nous permet de dériver une nouvelle formulation pour les méthodes Advantage Actor Critic qui a une variance plus faible et améliore la méthode A2C traditionnelle.
Éditeur
Elsevier BV
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr