Programmation dynamique à mémoire bornée avec distribution sur les croyances pour les Dec-POMDPs - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2009

Programmation dynamique à mémoire bornée avec distribution sur les croyances pour les Dec-POMDPs

Gabriel Corona
  • Fonction : Auteur
  • PersonId : 865260

Résumé

Nous proposons une approche heuristique pour calculer une politique approchée d'un Dec-POMDP. Il s'agit d'une approche par programmation dynamique à base de points dans la lignée des algorithmes PBDP \citep{szer2006a}, MBDP \citep{seuken2007a} et IMBDP \citep{seuken2007b} : Elle formule le choix des politiques retenues à chaque étape de la construction comme un problème d'optimisation. Le critère de ce problème repose sur une estimation de la distribution de probabilité {\em a priori} des croyances atteignables pour un horizon donné : Il s'agit de maximiser l'espérance des récompenses cumulées pour l'horizon considéré étant donné cette distribution. L'estimation de cette espérance peut se faire par échantillonnage des croyances en simulant une politique heuristique.
Fichier principal
Vignette du fichier
article.pdf (101.41 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

inria-00439053 , version 1 (05-12-2009)

Identifiants

  • HAL Id : inria-00439053 , version 1

Citer

Gabriel Corona, François Charpillet. Programmation dynamique à mémoire bornée avec distribution sur les croyances pour les Dec-POMDPs. Journées Francophones Planification Décision Apprentissage (JFPDA 2009), Olivier Sigaud and Michèle Vié, Jun 2009, Paris, France. pp.7. ⟨inria-00439053⟩
90 Consultations
89 Téléchargements

Partager

Gmail Facebook X LinkedIn More