Sur l'utilisation de politiques non-stationnaires pour les processus de décision Markoviens à horizon infini - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2013

Sur l'utilisation de politiques non-stationnaires pour les processus de décision Markoviens à horizon infini

Bruno Scherrer
Boris Lesner
  • Fonction : Auteur
  • PersonId : 933391

Résumé

Nous considérons les processus de décision Markoviens stationnaires et à horizon infini, pour lesquels on sait qu'il existe une politique optimale qui est stationnaire. En utilisant les algorithmes \emph{itérations sur les valeurs} et \emph{itérations sur les politiques} avec une erreur $\epsilon$ à chaque itération, il est connu que l'on peut calculer une politique stationnaire qui est $\frac{2\gamma}{(1-\gamma)^2}\epsilon$-optimale. Après avoir montré que cette garantie est fine, nous développons des variations d'\emph{itérations sur les valeurs} et \emph{itérations sur les politiques} qui calculent des politiques non-stationnaires qui peuvent être $\frac{2\gamma}{1-\gamma}\epsilon$-optimales, ce qui représente une amélioration significative dans la situation usuelle où $\gamma$ est proche de $1$. De manière surprenante, nous montrons ainsi que le problème de ''calculer une politique non-stationnaire approximativement optimale'' est beaucoup plus simple que celui de ''calculer une politique stationnaire approximativement optimale''.
Fichier non déposé

Dates et versions

hal-00921291 , version 1 (20-12-2013)

Identifiants

  • HAL Id : hal-00921291 , version 1

Citer

Bruno Scherrer, Boris Lesner. Sur l'utilisation de politiques non-stationnaires pour les processus de décision Markoviens à horizon infini. JFPDA - 8èmes Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes - 2013, Jul 2013, Lille, France. ⟨hal-00921291⟩
90 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More