Une extension des POMDP avec des récompenses dépendant de l'état de croyance

Mauricio Araya-López; Olivier Buffet; Vincent Thomas; François Charpillet

Communication Dans Un Congrès Année : 2011

Une extension des POMDP avec des récompenses dépendant de l'état de croyance

(1) , (1) , (1) , (1)

Mauricio Araya-López

Fonction : Auteur
PersonId : 881106

Autonomous intelligent machine

Olivier Buffet

Fonction : Auteur
PersonId : 1407
IdHAL : olivier-buffet
ORCID : 0000-0002-5072-5857

Autonomous intelligent machine

Vincent Thomas

Fonction : Auteur
PersonId : 16368
IdHAL : vincent-thomas
ORCID : 0000-0003-3401-4649

Autonomous intelligent machine

François Charpillet

Fonction : Auteur
PersonId : 1910
IdHAL : francois-charpillet
ORCID : 0000-0001-8260-1536
IdRef : 070140553

Autonomous intelligent machine

Résumé

Les processus de décision markoviens partiellement observables (POMDP) modélisent des problèmes de prise de décision séquentielle dans l'incertain et sous observation partielle. Toutefois, certains problèmes ne peuvent être modélisés avec des fonctions de récompense dépendant de l'état, comme des problèmes dont l'objectif requiert explicitement de réduire l'incertitude sur l'état. Dans ce but, nous introduisons les ρPOMDP, une extension des POMDP dans laquelle la fonction de récompense ρ dépend de l'état de croyance. Nous montrons que, sous l'hypothèse courante que ρ est convexe, la fonction de valeur est aussi convexe, ce qui permet (1) d'approcher ρ arbitrairement bien avec une fonction convexe et linéaire par morceaux (PWLC), et (2) d'employer des algorithmes de résolutions de l'état de l'art, exacts ou approchés, avec des modifications minimales.

Domaines

Intelligence artificielle [cs.AI]

Fichier principal

cap-11.pdf (154.47 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Olivier Buffet : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-00642910

Soumis le : samedi 19 novembre 2011-16:34:41

Dernière modification le : jeudi 15 février 2024-03:32:03

Archivage à long terme le : vendredi 16 novembre 2012-11:30:50

Dates et versions

hal-00642910 , version 1 (19-11-2011)

Identifiants

HAL Id : hal-00642910 , version 1

Citer

Mauricio Araya-López, Olivier Buffet, Vincent Thomas, François Charpillet. Une extension des POMDP avec des récompenses dépendant de l'état de croyance. Conférence francophone sur l'Apprentissage automatique, May 2011, Chambéry, France. ⟨hal-00642910⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-RENNES1 CNRS INRIA IRISA UNIV-LORRAINE INRIA2 LORIA UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES UR1-MATH-NUM

222 Consultations

90 Téléchargements

Une extension des POMDP avec des récompenses dépendant de l'état de croyance

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager