Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct

Freek Stulp 1, 2 Olivier Sigaud 3
1 Flowers - Flowing Epigenetic Robots and Systems
Inria Bordeaux - Sud-Ouest, U2IS - Unité d'Informatique et d'Ingénierie des Systèmes
Résumé : La résolution de problèmes à états et actions continus par l'optimisation de politiques paramétriques est un sujet d'intérêt récent en apprentissage par renforcement. L'algorithme PI^2 est un exemple de cette approche, qui bénéficie de fondements mathématiques solides tirés de la commande stochastique optimale et des outils de la théorie de l'estimation statistique. Dans cet article, nous considérons PI^2 en tant que membre de la famille plus vaste des méthodes qui partagent le concept de moyenne pondérée par les probabilités pour mettre à jour itérativement des paramètres afin d'optimiser une fonction de coût. Nous comparons PI^2 à d'autres membres de la même famille - la " méthode d'entropie croisée " et CMA-ES - au niveau conceptuel et en termes de performance. La comparaison débouche sur la dérivation d'un nouvel algorithme que nous appelons PI^2 -CMA pour " Path Integral Policy Improvement with Covariance Matrix Adaptation ". Le principal avantage de PI^2 -CMA est qu'il détermine l'amplitude du bruit d'exploration automatiquement.
Document type :
Conference papers
Liste complète des métadonnées

Cited literature [16 references]  Display  Hide  Download

https://hal.inria.fr/hal-00736310
Contributor : Olivier Buffet <>
Submitted on : Friday, September 28, 2012 - 8:48:49 AM
Last modification on : Thursday, March 21, 2019 - 2:39:38 PM
Document(s) archivé(s) le : Friday, December 16, 2016 - 6:05:01 PM

File

1.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-00736310, version 1

Citation

Freek Stulp, Olivier Sigaud. Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct. Journées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 12 p. ⟨hal-00736310⟩

Share

Metrics

Record views

312

Files downloads

223