467 articles – 709 references  [version française]

hal-00642910, version 1

Une extension des POMDP avec des récompenses dépendant de l'état de croyance

Mauricio Araya-López () a1, Olivier Buffet (, http://www.loria.fr/~buffet/) 1, Vincent Thomas () b1, François Charpillet (, http://www.loria.fr/~charp/) a1

Conférence francophone sur l'Apprentissage automatique (2011)

Abstract: Les processus de décision markoviens partiellement observables (POMDP) modélisent des problèmes de prise de décision séquentielle dans l'incertain et sous observation partielle. Toutefois, certains problèmes ne peuvent être modélisés avec des fonctions de récompense dépendant de l'état, comme des problèmes dont l'objectif requiert explicitement de réduire l'incertitude sur l'état. Dans ce but, nous introduisons les ρPOMDP, une extension des POMDP dans laquelle la fonction de récompense ρ dépend de l'état de croyance. Nous montrons que, sous l'hypothèse courante que ρ est convexe, la fonction de valeur est aussi convexe, ce qui permet (1) d'approcher ρ arbitrairement bien avec une fonction convexe et linéaire par morceaux (PWLC), et (2) d'employer des algorithmes de résolutions de l'état de l'art, exacts ou approchés, avec des modifications minimales.

  • a –  INRIA
  • b –  Université Nancy II
  • 1:  MAIA (INRIA Lorraine - LORIA)
  • INRIA – CNRS : UMR7503 – Université Henri Poincaré - Nancy I – Université Nancy II – Institut National Polytechnique de Lorraine (INPL)
  • Domain : Computer Science/Artificial Intelligence
 
  • hal-00642910, version 1
  • oai:hal.inria.fr:hal-00642910
  • From: 
  • Submitted on: Saturday, 19 November 2011 16:34:41
  • Updated on: Saturday, 19 November 2011 18:29:39