Apprentissage d'une discrétisation pour construire une politique à partir d'exemples

Cédric Rose; François Charpillet

Conference Papers Year : 2009

Apprentissage d'une discrétisation pour construire une politique à partir d'exemples

(1, 2) , (1)

1
2

Cédric Rose

Function : Author
PersonId : 830760

Autonomous intelligent machine

Diatélic SA

François Charpillet

Function : Author
PersonId : 1910
IdHAL : francois-charpillet
ORCID : 0000-0001-8260-1536
IdRef : 070140553

Autonomous intelligent machine

Abstract

Nous présentons dans cet article une approche permettant d'apprendre une politique de contrôle à partir de l'observation d'un expert manipulant le système. Dans le cas où les actions peuvent s'avérer critiques pour le système, par exemple dans des applications médicales où bien même en robotique, l'exploration du système peut ou doit être confiée à un humain. Les actions dangereuses pourront ainsi être évitée avec la contrepartie que l'exploration restera partielle et que le nombre de trajectoires utilisables pour l'apprentissage sera limité. Nous nous intéressons ici à l'impacte du choix de l'espace d'états sur l'apprentissage de la politique dans le cas particulier d'un nombre limité d'échantillons d'apprentissage et nous proposons l'utilisation du critère de vraisemblance pour apprendre une discrétisation sous la forme d'un réseau bayésien dynamique. Ce modèle sert ensuite de support à l'apprentissage d'une politique de contrôle. L'algorithme QD-Iteration, qui est une version itérative hors ligne de QLearning, est introduit pour apprendre la politique à partir des trajectoires fournies par l'expert humain. Le problème du pendule sur le chariot est utilisé pour illustrer et tester l'approche.

Domains

Artificial Intelligence [cs.AI]

Cédric Rose : Connect in order to contact the contributor

https://inria.hal.science/inria-00439677

Submitted on : Tuesday, December 8, 2009-11:34:30 AM

Last modification on : Thursday, February 15, 2024-3:31:17 AM

Dates and versions

inria-00439677 , version 1 (08-12-2009)

Identifiers

HAL Id : inria-00439677 , version 1

Cite

Cédric Rose, François Charpillet. Apprentissage d'une discrétisation pour construire une politique à partir d'exemples. Journées Francophones Planification Décision Apprentissage (JFPDA 2009), Jun 2009, PARIS, France. ⟨inria-00439677⟩

Export

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-RENNES1 CNRS INRIA IRISA UNIV-LORRAINE INRIA2 LORIA UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES UR1-MATH-NUM

114 View

0 Download

Apprentissage d'une discrétisation pour construire une politique à partir d'exemples

Abstract

Domains

Dates and versions

Identifiers

Cite

Export

Collections

Share