Valeur limite générale dans la programmation dynamique.

Auteurs Date de publication
2013
Type de publication
Autre
Résumé Nous considérons un problème de programmation dynamique avec un espace d'état arbitraire et des récompenses bornées. Est-il possible de définir de manière unique une valeur limite pour le problème, où la ''patience'' du décideur tend vers l'infini ? Nous considérons, pour chaque évaluation $\theta$ (une distribution de probabilité sur les entiers positifs) la fonction de valeur $v_{\theta}$ du problème où le poids de toute étape $t$ est donné par $\theta_t$, et nous étudions la convergence uniforme d'une séquence $(v_{\theta^k})_k$ lorsque l'"impatience" des évaluations disparaît, au sens où $\sum_{t} | \theta^k_{t}-\theta^k_{t+1}| \rightarrow_{k \to \infty} 0$. Nous prouvons que cette convergence uniforme se produit si et seulement si l'espace métrique $\{v_{\theta^k}, k\geq 1\}$ est totalement borné. De plus, il existe une fonction particulière $v^*$, indépendante de la séquence particulière choisie $({\theta^k})_k$, telle que tout point limite d'une telle séquence de fonctions de valeur est précisément $v^*$. Par conséquent, en parlant de convergence uniforme des fonctions de valeur, $v^*$ peut être considéré comme l'unique limite possible lorsque la patience du décideur tend vers l'infini. Le résultat s'applique en particulier aux gains actualisés lorsque le facteur d'actualisation disparaît, ainsi qu'aux gains moyens lorsque le nombre d'étapes tend vers l'infini, et également aux modèles avec transitions stochastiques. Nous présentons des corollaires faciles à mettre en œuvre, et nous discutons de contre-exemples et d'une conjecture.
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr