Apprentissage actif de modèle de MDP

Mauricio Araya-López 1 Olivier Buffet 1 Vincent Thomas 1 François Charpillet 1
1 MAIA - Autonomous intelligent machine
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Dans cet article, nous nous intéressons à un problème d'apprentissage actif consistant à déduire le modèle de transition d'un Processus de Décision Markovien (MDP) en agissant et en observant les transitions résultantes. Ceci est particulièrement utile lorsque la fonction de récompense n'est pas initialement accessible. Notre proposition consiste à formuler ce problème d'apprentissage actif en un problème de maximisation d'utilité dans le cadre de l'apprentissage par renforcement bayésien avec des récompenses dépendant de l'état de croyance. Après avoir présenté trois critères de performance possibles, nous en dérivons des récompenses dépendant de l'état de croyance que l'on pourra utiliser dans le processus de prise de décision. Comme le calcul de la fonction de valeur bayésienne optimale n'est pas envisageable pour de larges horizons, nous utilisons un algorithme simple pour résoudre de manière approchée ce problème d'optimisation. Malgré le fait que la solution est sous- optimale, nous montrons expérimentalement que notre proposition est néanmoins efficace dans un certain nombre de domaines.
Type de document :
Communication dans un congrès
Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes, Jun 2011, Rouen, France. 2011
Liste complète des métadonnées

Littérature citée [20 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00642913
Contributeur : Olivier Buffet <>
Soumis le : samedi 19 novembre 2011 - 16:39:53
Dernière modification le : jeudi 11 janvier 2018 - 06:19:51
Document(s) archivé(s) le : vendredi 16 novembre 2012 - 11:30:57

Fichier

JFPDA-article.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00642913, version 1

Collections

Citation

Mauricio Araya-López, Olivier Buffet, Vincent Thomas, François Charpillet. Apprentissage actif de modèle de MDP. Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes, Jun 2011, Rouen, France. 2011. 〈hal-00642913〉

Partager

Métriques

Consultations de la notice

256

Téléchargements de fichiers

131