Programmation dynamique à mémoire bornée avec distribution sur les croyances pour les Dec-POMDPs

Gabriel Corona 1 François Charpillet 1
1 MAIA - Autonomous intelligent machine
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Nous proposons une approche heuristique pour calculer une politique approchée d'un Dec-POMDP. Il s'agit d'une approche par programmation dynamique à base de points dans la lignée des algorithmes PBDP \citep{szer2006a}, MBDP \citep{seuken2007a} et IMBDP \citep{seuken2007b} : Elle formule le choix des politiques retenues à chaque étape de la construction comme un problème d'optimisation. Le critère de ce problème repose sur une estimation de la distribution de probabilité {\em a priori} des croyances atteignables pour un horizon donné : Il s'agit de maximiser l'espérance des récompenses cumulées pour l'horizon considéré étant donné cette distribution. L'estimation de cette espérance peut se faire par échantillonnage des croyances en simulant une politique heuristique.
Type de document :
Communication dans un congrès
Journées Francophones Planification Décision Apprentissage (JFPDA 2009), Jun 2009, Paris, France. pp.7, 2009
Liste complète des métadonnées

Littérature citée [11 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/inria-00439053
Contributeur : Gabriel Corona <>
Soumis le : samedi 5 décembre 2009 - 20:17:17
Dernière modification le : jeudi 11 janvier 2018 - 06:19:51
Document(s) archivé(s) le : jeudi 18 octobre 2012 - 10:05:28

Fichier

article.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00439053, version 1

Collections

Citation

Gabriel Corona, François Charpillet. Programmation dynamique à mémoire bornée avec distribution sur les croyances pour les Dec-POMDPs. Journées Francophones Planification Décision Apprentissage (JFPDA 2009), Jun 2009, Paris, France. pp.7, 2009. 〈inria-00439053〉

Partager

Métriques

Consultations de la notice

288

Téléchargements de fichiers

125