Résumé : Nous proposons dans cette contribution une méthode qui permet d'obtenir une politique efficace dans un cadre où l'état et l'action sont continus. Le système contrôlé est un bras à deux degrés de liberté actionné par six muscles. Nous apprenons par démonstration une politique paramétrique avec le système de classeurs xcsf à partir de trajectoires quasi-optimales et nous étudions la capacité d'xcsf à généraliser ce qu'il a appris le long de ces trajectoires sur l'ensemble de l'espace atteignable. De plus, nous montrons qu'une méthode d'optimisation stochastique appelée Cross-Entropy Policy Search permet d'améliorer encore la performance du contrôleur paramétrique.
https://hal.sorbonne-universite.fr/hal-00703774 Contributor : Didier MarinConnect in order to contact the contributor Submitted on : Monday, June 4, 2012 - 1:08:59 PM Last modification on : Saturday, January 22, 2022 - 3:01:52 AM