A POMDP Extension with Belief-dependent Rewards (Extended Version) - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2010

A POMDP Extension with Belief-dependent Rewards (Extended Version)

Résumé

Partially Observable Markov Decision Processes (POMDPs) model sequential decision-making problems under uncertainty and partial observability. Unfortunately, some problems cannot be modeled with state-dependent reward functions, e.g., problems whose objective explicitly implies reducing the uncertainty on the state. To that end, we introduce ρPOMDPs, an extension of POMDPs where the reward function ρ depends on the belief state. We show that, under the common assumption that ρ is convex, the value function is also convex, what makes it possible to (1) approximate ρ arbitrarily well with a piecewise linear and convex (PWLC) function, and (2) use state-of-the-art exact or approximate solving algorithms with limited changes.
Les processus de décision markoviens partiellement observables (POMDP) modélisent des problèmes de décision sous incertitude et observabilité partielle. Malheureusement, certains problèmes ne peuvent être modélisés avec des fonctions de récompensent dépendant des états, par exemple, des problèmes dont l'objectif implique explicitement de réduire l'incertitude sur l'état. A cette n, nous introduisons les ρPOMDP, une extension des POMDP dans laquelle la fonction de récompense ρ dépend de l'état de croyance. Nous montrons que, sous l'hypothèse courante que ρ est convexe, la fonction de valeur est aussi convexe, ce qui rend possible (1) d'approximer ρ arbitrairement bien avec une fonction linéaire par morceaux et convexe (PWLC), et (2) d'utiliser des algorithmes de résolution exacts ou approchés de l'état de l'art après des modications limitées.
Fichier principal
Vignette du fichier
RR-7433.pdf (530.23 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

inria-00529498 , version 1 (25-10-2010)
inria-00529498 , version 2 (14-12-2010)

Identifiants

  • HAL Id : inria-00529498 , version 2

Citer

Mauricio Araya-López, Olivier Buffet, Vincent Thomas, François Charpillet. A POMDP Extension with Belief-dependent Rewards (Extended Version). [Research Report] RR-7433, INRIA. 2010, pp.18. ⟨inria-00529498v2⟩
480 Consultations
295 Téléchargements

Partager

Gmail Facebook X LinkedIn More