Skip to Main content Skip to Navigation
Conference papers

Une extension des POMDP avec des récompenses dépendant de l'état de croyance

Mauricio Araya-López 1 Olivier Buffet 1 Vincent Thomas 1 François Charpillet 1
1 MAIA - Autonomous intelligent machine
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Les processus de décision markoviens partiellement observables (POMDP) modélisent des problèmes de prise de décision séquentielle dans l'incertain et sous observation partielle. Toutefois, certains problèmes ne peuvent être modélisés avec des fonctions de récompense dépendant de l'état, comme des problèmes dont l'objectif requiert explicitement de réduire l'incertitude sur l'état. Dans ce but, nous introduisons les ρPOMDP, une extension des POMDP dans laquelle la fonction de récompense ρ dépend de l'état de croyance. Nous montrons que, sous l'hypothèse courante que ρ est convexe, la fonction de valeur est aussi convexe, ce qui permet (1) d'approcher ρ arbitrairement bien avec une fonction convexe et linéaire par morceaux (PWLC), et (2) d'employer des algorithmes de résolutions de l'état de l'art, exacts ou approchés, avec des modifications minimales.
Document type :
Conference papers
Complete list of metadata

Cited literature [10 references]  Display  Hide  Download

https://hal.inria.fr/hal-00642910
Contributor : Olivier Buffet <>
Submitted on : Saturday, November 19, 2011 - 4:34:41 PM
Last modification on : Friday, February 26, 2021 - 3:28:04 PM
Long-term archiving on: : Friday, November 16, 2012 - 11:30:50 AM

File

cap-11.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-00642910, version 1

Collections

Citation

Mauricio Araya-López, Olivier Buffet, Vincent Thomas, François Charpillet. Une extension des POMDP avec des récompenses dépendant de l'état de croyance. Conférence francophone sur l'Apprentissage automatique, May 2011, Chambéry, France. ⟨hal-00642910⟩

Share

Metrics

Record views

409

Files downloads

132