Une extension des POMDP avec des récompenses dépendant de l'état de croyance - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2011

Une extension des POMDP avec des récompenses dépendant de l'état de croyance

Mauricio Araya-López
  • Fonction : Auteur
  • PersonId : 881106
Olivier Buffet
Vincent Thomas

Résumé

Les processus de décision markoviens partiellement observables (POMDP) modélisent des problèmes de prise de décision séquentielle dans l'incertain et sous observation partielle. Toutefois, certains problèmes ne peuvent être modélisés avec des fonctions de récompense dépendant de l'état, comme des problèmes dont l'objectif requiert explicitement de réduire l'incertitude sur l'état. Dans ce but, nous introduisons les ρPOMDP, une extension des POMDP dans laquelle la fonction de récompense ρ dépend de l'état de croyance. Nous montrons que, sous l'hypothèse courante que ρ est convexe, la fonction de valeur est aussi convexe, ce qui permet (1) d'approcher ρ arbitrairement bien avec une fonction convexe et linéaire par morceaux (PWLC), et (2) d'employer des algorithmes de résolutions de l'état de l'art, exacts ou approchés, avec des modifications minimales.
Fichier principal
Vignette du fichier
cap-11.pdf (154.47 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00642910 , version 1 (19-11-2011)

Identifiants

  • HAL Id : hal-00642910 , version 1

Citer

Mauricio Araya-López, Olivier Buffet, Vincent Thomas, François Charpillet. Une extension des POMDP avec des récompenses dépendant de l'état de croyance. Conférence francophone sur l'Apprentissage automatique, May 2011, Chambéry, France. ⟨hal-00642910⟩
222 Consultations
90 Téléchargements

Partager

Gmail Facebook X LinkedIn More