Sur l'utilisation de politiques non-stationnaires pour les processus de décision Markoviens à horizon infini

Bruno Scherrer 1 Boris Lesner 1
1 MAIA - Autonomous intelligent machine
Inria Nancy - Grand Est, LORIA - AIS - Department of Complex Systems, Artificial Intelligence & Robotics
Résumé : Nous considérons les processus de décision Markoviens stationnaires et à horizon infini, pour lesquels on sait qu'il existe une politique optimale qui est stationnaire. En utilisant les algorithmes \emph{itérations sur les valeurs} et \emph{itérations sur les politiques} avec une erreur $\epsilon$ à chaque itération, il est connu que l'on peut calculer une politique stationnaire qui est $\frac{2\gamma}{(1-\gamma)^2}\epsilon$-optimale. Après avoir montré que cette garantie est fine, nous développons des variations d'\emph{itérations sur les valeurs} et \emph{itérations sur les politiques} qui calculent des politiques non-stationnaires qui peuvent être $\frac{2\gamma}{1-\gamma}\epsilon$-optimales, ce qui représente une amélioration significative dans la situation usuelle où $\gamma$ est proche de $1$. De manière surprenante, nous montrons ainsi que le problème de ''calculer une politique non-stationnaire approximativement optimale'' est beaucoup plus simple que celui de ''calculer une politique stationnaire approximativement optimale''.
Type de document :
Communication dans un congrès
JFPDA - 8èmes Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes - 2013, Jul 2013, Lille, France. 2013
Liste complète des métadonnées

https://hal.inria.fr/hal-00921291
Contributeur : Bruno Scherrer <>
Soumis le : vendredi 20 décembre 2013 - 10:50:08
Dernière modification le : jeudi 11 janvier 2018 - 06:25:23

Identifiants

  • HAL Id : hal-00921291, version 1

Citation

Bruno Scherrer, Boris Lesner. Sur l'utilisation de politiques non-stationnaires pour les processus de décision Markoviens à horizon infini. JFPDA - 8èmes Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes - 2013, Jul 2013, Lille, France. 2013. 〈hal-00921291〉

Partager

Métriques

Consultations de la notice

166