Sur l'utilisation de politiques non-stationnaires pour les processus de décision Markoviens à horizon infini

Bruno Scherrer; Boris Lesner

Communication Dans Un Congrès Année : 2013

Sur l'utilisation de politiques non-stationnaires pour les processus de décision Markoviens à horizon infini

(1) , (1)

Bruno Scherrer

Fonction : Auteur
PersonId : 1406
IdHAL : bruno-scherrer
IdRef : 073360708

Autonomous intelligent machine

Boris Lesner

Fonction : Auteur
PersonId : 933391

Autonomous intelligent machine

Résumé

Nous considérons les processus de décision Markoviens stationnaires et à horizon infini, pour lesquels on sait qu'il existe une politique optimale qui est stationnaire. En utilisant les algorithmes \emph{itérations sur les valeurs} et \emph{itérations sur les politiques} avec une erreur $\epsilon$ à chaque itération, il est connu que l'on peut calculer une politique stationnaire qui est $\frac{2\gamma}{(1-\gamma)^2}\epsilon$-optimale. Après avoir montré que cette garantie est fine, nous développons des variations d'\emph{itérations sur les valeurs} et \emph{itérations sur les politiques} qui calculent des politiques non-stationnaires qui peuvent être $\frac{2\gamma}{1-\gamma}\epsilon$-optimales, ce qui représente une amélioration significative dans la situation usuelle où $\gamma$ est proche de $1$. De manière surprenante, nous montrons ainsi que le problème de ''calculer une politique non-stationnaire approximativement optimale'' est beaucoup plus simple que celui de ''calculer une politique stationnaire approximativement optimale''.

Domaines

Apprentissage [cs.LG] Recherche opérationnelle [math.OC] Optimisation et contrôle [math.OC]

Bruno Scherrer : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-00921291

Soumis le : vendredi 20 décembre 2013-10:50:08

Dernière modification le : lundi 22 avril 2024-14:01:03

Dates et versions

hal-00921291 , version 1 (20-12-2013)

Identifiants

HAL Id : hal-00921291 , version 1

Citer

Bruno Scherrer, Boris Lesner. Sur l'utilisation de politiques non-stationnaires pour les processus de décision Markoviens à horizon infini. JFPDA - 8èmes Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes - 2013, Jul 2013, Lille, France. ⟨hal-00921291⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA UNIV-LORRAINE INRIA2 TDS-MACS LORIA LORIA-AIS

90 Consultations

0 Téléchargements

Sur l'utilisation de politiques non-stationnaires pour les processus de décision Markoviens à horizon infini

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager