A POMDP Extension with Belief-dependent Rewards (Extended Version)

Mauricio Araya-López; Olivier Buffet; Vincent Thomas; François Charpillet

Rapport (Rapport De Recherche) Année : 2010

A POMDP Extension with Belief-dependent Rewards (Extended Version)

(1) , (1) , (1) , (1)

Mauricio Araya-López

Fonction : Auteur correspondant
PersonId : 881106

Connectez-vous pour contacter l'auteur

Autonomous intelligent machine

Olivier Buffet

Fonction : Auteur
PersonId : 1407
IdHAL : olivier-buffet
ORCID : 0000-0002-5072-5857

Autonomous intelligent machine

Vincent Thomas

Fonction : Auteur
PersonId : 16368
IdHAL : vincent-thomas
ORCID : 0000-0003-3401-4649

Autonomous intelligent machine

François Charpillet

Fonction : Auteur
PersonId : 1910
IdHAL : francois-charpillet
ORCID : 0000-0001-8260-1536
IdRef : 070140553

Autonomous intelligent machine

Résumé

Partially Observable Markov Decision Processes (POMDPs) model sequential decision-making problems under uncertainty and partial observability. Unfortunately, some problems cannot be modeled with state-dependent reward functions, e.g., problems whose objective explicitly implies reducing the uncertainty on the state. To that end, we introduce ρPOMDPs, an extension of POMDPs where the reward function ρ depends on the belief state. We show that, under the common assumption that ρ is convex, the value function is also convex, what makes it possible to (1) approximate ρ arbitrarily well with a piecewise linear and convex (PWLC) function, and (2) use state-of-the-art exact or approximate solving algorithms with limited changes.

Les processus de décision markoviens partiellement observables (POMDP) modélisent des problèmes de décision sous incertitude et observabilité partielle. Malheureusement, certains problèmes ne peuvent être modélisés avec des fonctions de récompensent dépendant des états, par exemple, des problèmes dont l'objectif implique explicitement de réduire l'incertitude sur l'état. A cette n, nous introduisons les ρPOMDP, une extension des POMDP dans laquelle la fonction de récompense ρ dépend de l'état de croyance. Nous montrons que, sous l'hypothèse courante que ρ est convexe, la fonction de valeur est aussi convexe, ce qui rend possible (1) d'approximer ρ arbitrairement bien avec une fonction linéaire par morceaux et convexe (PWLC), et (2) d'utiliser des algorithmes de résolution exacts ou approchés de l'état de l'art après des modications limitées.

Mots clés

partially observable Markov decision processes reward function active sensing piecewise linear and convex approximation

Domaines

Intelligence artificielle [cs.AI]

Fichier principal

RR-7433.pdf (530.23 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Olivier Buffet : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00529498

Soumis le : mardi 14 décembre 2010-16:48:53

Dernière modification le : jeudi 15 février 2024-03:31:20

Archivage à long terme le : vendredi 2 décembre 2016-17:58:31

Dates et versions

inria-00529498 , version 1 (25-10-2010)

inria-00529498 , version 2 (14-12-2010)

Identifiants

HAL Id : inria-00529498 , version 2

Citer

Mauricio Araya-López, Olivier Buffet, Vincent Thomas, François Charpillet. A POMDP Extension with Belief-dependent Rewards (Extended Version). [Research Report] RR-7433, INRIA. 2010, pp.18. ⟨inria-00529498v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-RENNES1 CNRS INRIA IRISA INRIA-RRRT UNIV-LORRAINE INRIA2 LORIA LARA UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES UR1-MATH-NUM

480 Consultations

295 Téléchargements

A POMDP Extension with Belief-dependent Rewards (Extended Version)

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager