Processus de décision de Markov à champ moyen avec bruit commun et commandes en boucle ouverte.

Auteurs
Date de publication
2019
Type de publication
Autre
Résumé Nous développons une étude exhaustive du processus de décision de Markov (MDP) sous interaction de champ moyen à la fois sur les états et les actions en présence d'un bruit commun, et lorsque l'optimisation est effectuée sur des contrôles en boucle ouverte sur un horizon infini. Un tel modèle, appelé CMKV-MDP pour conditional McKean-Vlasov MDP, se présente et est obtenu ici rigoureusement avec un taux de convergence comme le problème asymptotique de N agents coopératifs contrôlés par un planificateur/influenceur social qui observe les bruits de l'environnement mais pas nécessairement les états individuels des agents. Nous soulignons le rôle crucial des contrôles relaxés et de l'hypothèse de randomisation pour cette classe de modèles par rapport à la théorie classique des MDP. Nous prouvons la correspondance entre le PDM CMKV et un PDM levé général sur l'espace des mesures de probabilité, et établissons l'équation du point fixe de Bellman de la programmation dynamique satisfaite par la fonction de valeur, ainsi que l'existence de contrôles de rétroaction aléatoires optimaux. Les arguments de la preuve impliquent un couplage optimal mesurable original pour la distance de Wasserstein. Ceci fournit une procédure pour l'apprentissage de stratégies dans une grande population d'agents collaboratifs en interaction. Classification MSC : 90C40, 49L20.
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr