A POMDP Extension with Belief-dependent Rewards (Extended Version)

Mauricio Araya-López 1, * Olivier Buffet 1 Vincent Thomas 1 François Charpillet 1
* Auteur correspondant
1 MAIA - Autonomous intelligent machine
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Les processus de décision markoviens partiellement observables (POMDP) modélisent des problèmes de décision sous incertitude et observabilité partielle. Malheureusement, certains problèmes ne peuvent être modélisés avec des fonctions de récompensent dépendant des états, par exemple, des problèmes dont l'objectif implique explicitement de réduire l'incertitude sur l'état. A cette n, nous introduisons les ρPOMDP, une extension des POMDP dans laquelle la fonction de récompense ρ dépend de l'état de croyance. Nous montrons que, sous l'hypothèse courante que ρ est convexe, la fonction de valeur est aussi convexe, ce qui rend possible (1) d'approximer ρ arbitrairement bien avec une fonction linéaire par morceaux et convexe (PWLC), et (2) d'utiliser des algorithmes de résolution exacts ou approchés de l'état de l'art après des modications limitées.
Type de document :
Rapport
[Research Report] RR-7433, INRIA. 2010, pp.18
Liste complète des métadonnées

Littérature citée [18 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/inria-00529498
Contributeur : Olivier Buffet <>
Soumis le : mardi 14 décembre 2010 - 16:48:53
Dernière modification le : mardi 18 septembre 2018 - 14:04:03
Document(s) archivé(s) le : vendredi 2 décembre 2016 - 17:58:31

Fichier

RR-7433.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00529498, version 2

Collections

Citation

Mauricio Araya-López, Olivier Buffet, Vincent Thomas, François Charpillet. A POMDP Extension with Belief-dependent Rewards (Extended Version). [Research Report] RR-7433, INRIA. 2010, pp.18. 〈inria-00529498v2〉

Partager

Métriques

Consultations de la notice

770

Téléchargements de fichiers

174