Apprentissage actif de modèle de MDP

Mauricio Araya-López; Olivier Buffet; Vincent Thomas; François Charpillet

Communication Dans Un Congrès Année : 2011

Apprentissage actif de modèle de MDP

(1) , (1) , (1) , (1)

Mauricio Araya-López

Fonction : Auteur
PersonId : 881106

Autonomous intelligent machine

Olivier Buffet

Fonction : Auteur
PersonId : 1407
IdHAL : olivier-buffet
ORCID : 0000-0002-5072-5857

Autonomous intelligent machine

Vincent Thomas

Fonction : Auteur
PersonId : 16368
IdHAL : vincent-thomas
ORCID : 0000-0003-3401-4649

Autonomous intelligent machine

François Charpillet

Fonction : Auteur
PersonId : 1910
IdHAL : francois-charpillet
ORCID : 0000-0001-8260-1536
IdRef : 070140553

Autonomous intelligent machine

Résumé

Dans cet article, nous nous intéressons à un problème d'apprentissage actif consistant à déduire le modèle de transition d'un Processus de Décision Markovien (MDP) en agissant et en observant les transitions résultantes. Ceci est particulièrement utile lorsque la fonction de récompense n'est pas initialement accessible. Notre proposition consiste à formuler ce problème d'apprentissage actif en un problème de maximisation d'utilité dans le cadre de l'apprentissage par renforcement bayésien avec des récompenses dépendant de l'état de croyance. Après avoir présenté trois critères de performance possibles, nous en dérivons des récompenses dépendant de l'état de croyance que l'on pourra utiliser dans le processus de prise de décision. Comme le calcul de la fonction de valeur bayésienne optimale n'est pas envisageable pour de larges horizons, nous utilisons un algorithme simple pour résoudre de manière approchée ce problème d'optimisation. Malgré le fait que la solution est sous- optimale, nous montrons expérimentalement que notre proposition est néanmoins efficace dans un certain nombre de domaines.

Domaines

Intelligence artificielle [cs.AI]

Fichier principal

JFPDA-article.pdf (222.54 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Olivier Buffet : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-00642913

Soumis le : samedi 19 novembre 2011-16:39:53

Dernière modification le : jeudi 15 février 2024-03:31:31

Archivage à long terme le : vendredi 16 novembre 2012-11:30:57

Dates et versions

hal-00642913 , version 1 (19-11-2011)

Identifiants

HAL Id : hal-00642913 , version 1

Citer

Mauricio Araya-López, Olivier Buffet, Vincent Thomas, François Charpillet. Apprentissage actif de modèle de MDP. Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes, Jun 2011, Rouen, France. ⟨hal-00642913⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-RENNES1 CNRS INRIA IRISA UNIV-LORRAINE INRIA2 LORIA UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES UR1-MATH-NUM

126 Consultations

111 Téléchargements

Apprentissage actif de modèle de MDP

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager