Programmation dynamique à mémoire bornée avec distribution sur les croyances pour les Dec-POMDPs - Inria - Institut national de recherche en sciences et technologies du numérique Access content directly
Conference Papers Year : 2009

Programmation dynamique à mémoire bornée avec distribution sur les croyances pour les Dec-POMDPs

Gabriel Corona
  • Function : Author
  • PersonId : 865260

Abstract

Nous proposons une approche heuristique pour calculer une politique approchée d'un Dec-POMDP. Il s'agit d'une approche par programmation dynamique à base de points dans la lignée des algorithmes PBDP \citep{szer2006a}, MBDP \citep{seuken2007a} et IMBDP \citep{seuken2007b} : Elle formule le choix des politiques retenues à chaque étape de la construction comme un problème d'optimisation. Le critère de ce problème repose sur une estimation de la distribution de probabilité {\em a priori} des croyances atteignables pour un horizon donné : Il s'agit de maximiser l'espérance des récompenses cumulées pour l'horizon considéré étant donné cette distribution. L'estimation de cette espérance peut se faire par échantillonnage des croyances en simulant une politique heuristique.
Fichier principal
Vignette du fichier
article.pdf (101.41 Ko) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

inria-00439053 , version 1 (05-12-2009)

Identifiers

  • HAL Id : inria-00439053 , version 1

Cite

Gabriel Corona, François Charpillet. Programmation dynamique à mémoire bornée avec distribution sur les croyances pour les Dec-POMDPs. Journées Francophones Planification Décision Apprentissage (JFPDA 2009), Olivier Sigaud and Michèle Vié, Jun 2009, Paris, France. pp.7. ⟨inria-00439053⟩
89 View
89 Download

Share

Gmail Facebook X LinkedIn More