Valeur limite générale en programmation dynamique.

Auteurs

RENAULT Jerome

Date de publication

2014

Type de publication

Article de journal

Résumé Nous considérons un problème de programmation dynamique avec un espace d'état arbitraire et des récompenses bornées. Est-il possible de définir de manière unique une valeur limite pour le problème, où la ''patience'' du décideur tend vers l'infini ? Nous considérons, pour chaque évaluation $\theta$ (une distribution de probabilité sur les entiers positifs) la fonction de valeur $v_{\theta}$ du problème où le poids de toute étape $t$ est donné par $\theta_t$, et nous étudions la convergence uniforme d'une séquence $(v_{\theta^k})_k$ lorsque l'"impatience" des évaluations disparaît, au sens où $\sum_{t} | \theta^k_{t}-\theta^k_{t+1}| \rightarrow_{k \to \infty} 0$. Nous prouvons que cette convergence uniforme se produit si et seulement si l'espace métrique $\{v_{\theta^k}, k\geq 1\}$ est totalement borné. De plus, il existe une fonction particulière $v^*$, indépendante de la séquence particulière choisie $({\theta^k})_k$, telle que tout point limite d'une telle séquence de fonctions de valeur est précisément $v^*$. Par conséquent, en parlant de convergence uniforme des fonctions de valeur, $v^*$ peut être considéré comme l'unique limite possible lorsque la patience du décideur tend vers l'infini. Le résultat s'applique en particulier aux gains actualisés lorsque le facteur d'actualisation disparaît, ainsi qu'aux gains moyens lorsque le nombre d'étapes tend vers l'infini, et également aux modèles avec transitions stochastiques. Nous présentons des corollaires faciles à mettre en œuvre, et nous discutons de contre-exemples et d'une conjecture.

Éditeur

American Institute of Mathematical Sciences (AIMS)

Voir la publication

Thématiques de la publication

Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr