Apprentissage de politiques efficaces avec XCSF et CEPS

Résumé : Nous proposons dans cette contribution une méthode qui permet d'obtenir une politique efficace dans un cadre où l'état et l'action sont continus. Le système contrôlé est un bras à deux degrés de liberté actionné par six muscles. Nous apprenons par démonstration une politique paramétrique avec le système de classeurs xcsf à partir de trajectoires quasi-optimales et nous étudions la capacité d'xcsf à généraliser ce qu'il a appris le long de ces trajectoires sur l'ensemble de l'espace atteignable. De plus, nous montrons qu'une méthode d'optimisation stochastique appelée Cross-Entropy Policy Search permet d'améliorer encore la performance du contrôleur paramétrique.
Document type :
Conference papers
Complete list of metadatas

https://hal.sorbonne-universite.fr/hal-00703774
Contributor : Didier Marin <>
Submitted on : Monday, June 4, 2012 - 1:08:59 PM
Last modification on : Thursday, March 21, 2019 - 1:06:14 PM

Identifiers

  • HAL Id : hal-00703774, version 1

Citation

Didier Marin, Jérémie Decock, Lionel Rigoux, Olivier Sigaud. Apprentissage de politiques efficaces avec XCSF et CEPS. JFPDA 2011, 2011, Rouen, France. pp.298-310. ⟨hal-00703774⟩

Share

Metrics

Record views

258