Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct

Freek Stulp 1, 2 Olivier Sigaud 3
1 Flowers - Flowing Epigenetic Robots and Systems
Inria Bordeaux - Sud-Ouest, U2IS - Unité d'Informatique et d'Ingénierie des Systèmes
Résumé : La résolution de problèmes à états et actions continus par l'optimisation de politiques paramétriques est un sujet d'intérêt récent en apprentissage par renforcement. L'algorithme PI^2 est un exemple de cette approche, qui bénéficie de fondements mathématiques solides tirés de la commande stochastique optimale et des outils de la théorie de l'estimation statistique. Dans cet article, nous considérons PI^2 en tant que membre de la famille plus vaste des méthodes qui partagent le concept de moyenne pondérée par les probabilités pour mettre à jour itérativement des paramètres afin d'optimiser une fonction de coût. Nous comparons PI^2 à d'autres membres de la même famille - la " méthode d'entropie croisée " et CMA-ES - au niveau conceptuel et en termes de performance. La comparaison débouche sur la dérivation d'un nouvel algorithme que nous appelons PI^2 -CMA pour " Path Integral Policy Improvement with Covariance Matrix Adaptation ". Le principal avantage de PI^2 -CMA est qu'il détermine l'amplitude du bruit d'exploration automatiquement.
Type de document :
Communication dans un congrès
Olivier Buffet. Journées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 12 p, 2012
Liste complète des métadonnées

Littérature citée [16 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00736310
Contributeur : Olivier Buffet <>
Soumis le : vendredi 28 septembre 2012 - 08:48:49
Dernière modification le : mercredi 21 mars 2018 - 18:57:41
Document(s) archivé(s) le : vendredi 16 décembre 2016 - 18:05:01

Fichier

1.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00736310, version 1

Collections

Citation

Freek Stulp, Olivier Sigaud. Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct. Olivier Buffet. Journées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 12 p, 2012. 〈hal-00736310〉

Partager

Métriques

Consultations de la notice

274

Téléchargements de fichiers

152