Apprentissage d'une discrétisation pour construire une politique à partir d'exemples

Cédric Rose 1, 2 François Charpillet 1
1 MAIA - Autonomous intelligent machine
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Nous présentons dans cet article une approche permettant d'apprendre une politique de contrôle à partir de l'observation d'un expert manipulant le système. Dans le cas où les actions peuvent s'avérer critiques pour le système, par exemple dans des applications médicales où bien même en robotique, l'exploration du système peut ou doit être confiée à un humain. Les actions dangereuses pourront ainsi être évitée avec la contrepartie que l'exploration restera partielle et que le nombre de trajectoires utilisables pour l'apprentissage sera limité. Nous nous intéressons ici à l'impacte du choix de l'espace d'états sur l'apprentissage de la politique dans le cas particulier d'un nombre limité d'échantillons d'apprentissage et nous proposons l'utilisation du critère de vraisemblance pour apprendre une discrétisation sous la forme d'un réseau bayésien dynamique. Ce modèle sert ensuite de support à l'apprentissage d'une politique de contrôle. L'algorithme QD-Iteration, qui est une version itérative hors ligne de QLearning, est introduit pour apprendre la politique à partir des trajectoires fournies par l'expert humain. Le problème du pendule sur le chariot est utilisé pour illustrer et tester l'approche.
Type de document :
Communication dans un congrès
Journées Francophones Planification Décision Apprentissage (JFPDA 2009), Jun 2009, PARIS, France. 2009
Liste complète des métadonnées

https://hal.inria.fr/inria-00439677
Contributeur : Cédric Rose <>
Soumis le : mardi 8 décembre 2009 - 11:34:30
Dernière modification le : jeudi 11 janvier 2018 - 06:19:51

Identifiants

  • HAL Id : inria-00439677, version 1

Collections

Citation

Cédric Rose, François Charpillet. Apprentissage d'une discrétisation pour construire une politique à partir d'exemples. Journées Francophones Planification Décision Apprentissage (JFPDA 2009), Jun 2009, PARIS, France. 2009. 〈inria-00439677〉

Partager

Métriques

Consultations de la notice

253