Abstraction Pathologies In Markov Decision Processes

Manel Tagorti 1 Bruno Scherrer 1 Olivier Buffet 1 Joerg Hoffmann 1, 2
1 MAIA - Autonomous intelligent machine
Inria Nancy - Grand Est, LORIA - AIS - Department of Complex Systems, Artificial Intelligence & Robotics
Abstract : Abstraction is a common method to compute lower bounds in classical planning, imposing an equivalence relation on the state space and deriving the lower bound from the quotient system. It is a trivial and well-known fact that refined abstractions can only improve the lower bound. Thus, when we embarked on applying the same technique in the probabilistic setting, our firm belief was to find the same behavior there. We were wrong. Indeed, there are cases where every direct refinement step (splitting one equivalence class into two) yields strictly worse bounds. We give a comprehensive account of the issues involved, for two wide-spread methods to define and use abstract MDPs.
Type de document :
Communication dans un congrès
8èmes Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes, Jul 2013, Lille, France. 2013, Actes des 8èmes Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes
Liste complète des métadonnées

Littérature citée [10 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00907295
Contributeur : Olivier Buffet <>
Soumis le : jeudi 21 novembre 2013 - 09:52:11
Dernière modification le : jeudi 11 janvier 2018 - 06:25:23
Document(s) archivé(s) le : samedi 22 février 2014 - 04:32:09

Fichier

jfpda13-a.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00907295, version 1

Collections

Citation

Manel Tagorti, Bruno Scherrer, Olivier Buffet, Joerg Hoffmann. Abstraction Pathologies In Markov Decision Processes. 8èmes Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes, Jul 2013, Lille, France. 2013, Actes des 8èmes Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes. 〈hal-00907295〉

Partager

Métriques

Consultations de la notice

347

Téléchargements de fichiers

102