Une extension des POMDP avec des récompenses dépendant de l'état de croyance

Mauricio Araya-López 1 Olivier Buffet 1 Vincent Thomas 1 François Charpillet 1
1 MAIA - Autonomous intelligent machine
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Les processus de décision markoviens partiellement observables (POMDP) modélisent des problèmes de prise de décision séquentielle dans l'incertain et sous observation partielle. Toutefois, certains problèmes ne peuvent être modélisés avec des fonctions de récompense dépendant de l'état, comme des problèmes dont l'objectif requiert explicitement de réduire l'incertitude sur l'état. Dans ce but, nous introduisons les ρPOMDP, une extension des POMDP dans laquelle la fonction de récompense ρ dépend de l'état de croyance. Nous montrons que, sous l'hypothèse courante que ρ est convexe, la fonction de valeur est aussi convexe, ce qui permet (1) d'approcher ρ arbitrairement bien avec une fonction convexe et linéaire par morceaux (PWLC), et (2) d'employer des algorithmes de résolutions de l'état de l'art, exacts ou approchés, avec des modifications minimales.
Type de document :
Communication dans un congrès
Conférence francophone sur l'Apprentissage automatique, May 2011, Chambéry, France. 2011
Liste complète des métadonnées

Littérature citée [10 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00642910
Contributeur : Olivier Buffet <>
Soumis le : samedi 19 novembre 2011 - 16:34:41
Dernière modification le : jeudi 11 janvier 2018 - 06:19:50
Document(s) archivé(s) le : vendredi 16 novembre 2012 - 11:30:50

Fichier

cap-11.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00642910, version 1

Collections

Citation

Mauricio Araya-López, Olivier Buffet, Vincent Thomas, François Charpillet. Une extension des POMDP avec des récompenses dépendant de l'état de croyance. Conférence francophone sur l'Apprentissage automatique, May 2011, Chambéry, France. 2011. 〈hal-00642910〉

Partager

Métriques

Consultations de la notice

321

Téléchargements de fichiers

98