Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct

Freek Stulp; Olivier Sigaud

Communication Dans Un Congrès Année : 2012

Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct

(1, 2) , (3, 4)

1
2
3
4

Freek Stulp

Fonction : Auteur
PersonId : 1420
IdHAL : freek-stulp
IdRef : 177920629

Flowing Epigenetic Robots and Systems

Robotique et Vision

Olivier Sigaud

Fonction : Auteur
PersonId : 14932
IdHAL : olivier-sigaud
ORCID : 0000-0002-8544-0229
IdRef : 072724714

Institut des Systèmes Intelligents et de Robotique

AMAC

Résumé

La résolution de problèmes à états et actions continus par l'optimisation de politiques paramétriques est un sujet d'intérêt récent en apprentissage par renforcement. L'algorithme PI^2 est un exemple de cette approche, qui bénéficie de fondements mathématiques solides tirés de la commande stochastique optimale et des outils de la théorie de l'estimation statistique. Dans cet article, nous considérons PI^2 en tant que membre de la famille plus vaste des méthodes qui partagent le concept de moyenne pondérée par les probabilités pour mettre à jour itérativement des paramètres afin d'optimiser une fonction de coût. Nous comparons PI^2 à d'autres membres de la même famille - la " méthode d'entropie croisée " et CMA-ES - au niveau conceptuel et en termes de performance. La comparaison débouche sur la dérivation d'un nouvel algorithme que nous appelons PI^2 -CMA pour " Path Integral Policy Improvement with Covariance Matrix Adaptation ". Le principal avantage de PI^2 -CMA est qu'il détermine l'amplitude du bruit d'exploration automatiquement.

Domaines

Intelligence artificielle [cs.AI]

Fichier principal

1.pdf (851.68 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Olivier Buffet : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-00736310

Soumis le : vendredi 28 septembre 2012-08:48:49

Dernière modification le : mercredi 27 mars 2024-15:02:03

Archivage à long terme le : vendredi 16 décembre 2016-18:05:01

Dates et versions

hal-00736310 , version 1 (28-09-2012)

Identifiants

HAL Id : hal-00736310 , version 1

Citer

Freek Stulp, Olivier Sigaud. Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct. Journées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 12 p. ⟨hal-00736310⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UPMC ENSTA CNRS INRIA ISIR JFPDA2012 ENSTA_U2IS INRIA2 SORBONNE-UNIVERSITE SU-SCIENCES ISIR_AMAC

149 Consultations

240 Téléchargements

Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager