A POMDP Extension with Belief-dependent Rewards

Mauricio Araya-López 1 Olivier Buffet 1 Vincent Thomas 1 François Charpillet 1
1 MAIA - Autonomous intelligent machine
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Abstract : Partially Observable Markov Decision Processes (POMDPs) model sequential decision-making problems under uncertainty and partial observability. Unfortunately, some problems cannot be modeled with state-dependent reward functions, e.g., problems whose objective explicitly implies reducing the uncertainty on the state. To that end, we introduce ρPOMDPs, an extension of POMDPs where the reward function ρ depends on the belief state. We show that, under the common assumption that ρ is convex, the value function is also convex, what makes it possible to (1) approximate ρ arbitrarily well with a piecewise linear and convex (PWLC) function, and (2) use state-of-the-art exact or approximate solving algorithms with limited changes.
Type de document :
Communication dans un congrès
Neural Information Processing Systems - NIPS 2010, Dec 2010, Vancouver, Canada. MIT Press, 2010, Advances in Neural Information Processing Systems 23
Liste complète des métadonnées

Littérature citée [20 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/inria-00535560
Contributeur : Olivier Buffet <>
Soumis le : mardi 14 décembre 2010 - 16:49:45
Dernière modification le : jeudi 11 janvier 2018 - 06:19:51
Document(s) archivé(s) le : samedi 3 décembre 2016 - 00:34:22

Fichier

article.pdf
Fichiers éditeurs autorisés sur une archive ouverte

Identifiants

  • HAL Id : inria-00535560, version 2

Collections

Citation

Mauricio Araya-López, Olivier Buffet, Vincent Thomas, François Charpillet. A POMDP Extension with Belief-dependent Rewards. Neural Information Processing Systems - NIPS 2010, Dec 2010, Vancouver, Canada. MIT Press, 2010, Advances in Neural Information Processing Systems 23. 〈inria-00535560v2〉

Partager

Métriques

Consultations de la notice

442

Téléchargements de fichiers

177