Apprentissage de politiques efficaces avec XCSF et CEPS

Résumé : Nous proposons dans cette contribution une méthode qui permet d'obtenir une politique efficace dans un cadre où l'état et l'action sont continus. Le système contrôlé est un bras à deux degrés de liberté actionné par six muscles. Nous apprenons par démonstration une politique paramétrique avec le système de classeurs xcsf à partir de trajectoires quasi-optimales et nous étudions la capacité d'xcsf à généraliser ce qu'il a appris le long de ces trajectoires sur l'ensemble de l'espace atteignable. De plus, nous montrons qu'une méthode d'optimisation stochastique appelée Cross-Entropy Policy Search permet d'améliorer encore la performance du contrôleur paramétrique.
Type de document :
Communication dans un congrès
JFPDA 2011, 2011, Rouen, France. pp.298-310, 2011
Liste complète des métadonnées

http://hal.upmc.fr/hal-00703774
Contributeur : Didier Marin <>
Soumis le : lundi 4 juin 2012 - 13:08:59
Dernière modification le : lundi 29 mai 2017 - 14:24:25

Identifiants

  • HAL Id : hal-00703774, version 1

Collections

Citation

Didier Marin, Jérémie Decock, Lionel Rigoux, Olivier Sigaud. Apprentissage de politiques efficaces avec XCSF et CEPS. JFPDA 2011, 2011, Rouen, France. pp.298-310, 2011. 〈hal-00703774〉

Partager

Métriques

Consultations de la notice

212