hal-00642910, version 1
Une extension des POMDP avec des récompenses dépendant de l'état de croyance
Conférence francophone sur l'Apprentissage automatique (2011)
Abstract: Les processus de décision markoviens partiellement observables (POMDP) modélisent des problèmes de prise de décision séquentielle dans l'incertain et sous observation partielle. Toutefois, certains problèmes ne peuvent être modélisés avec des fonctions de récompense dépendant de l'état, comme des problèmes dont l'objectif requiert explicitement de réduire l'incertitude sur l'état. Dans ce but, nous introduisons les ρPOMDP, une extension des POMDP dans laquelle la fonction de récompense ρ dépend de l'état de croyance. Nous montrons que, sous l'hypothèse courante que ρ est convexe, la fonction de valeur est aussi convexe, ce qui permet (1) d'approcher ρ arbitrairement bien avec une fonction convexe et linéaire par morceaux (PWLC), et (2) d'employer des algorithmes de résolutions de l'état de l'art, exacts ou approchés, avec des modifications minimales.
- a – INRIA
- b – Université Nancy II
- 1:
- INRIA – CNRS : UMR7503 – Université Henri Poincaré - Nancy I – Université Nancy II – Institut National Polytechnique de Lorraine (INPL)
- Domain : Computer Science/Artificial Intelligence
- hal-00642910, version 1
- http://hal.inria.fr/hal-00642910
- oai:hal.inria.fr:hal-00642910
- From:
- Submitted on: Saturday, 19 November 2011 16:34:41
- Updated on: Saturday, 19 November 2011 18:29:39



Associated documents
Export