Apprentissage par Renforcement sans Modèle et avec Action Continue

Nicolas Degris 1 Patrick Pilarski 2 Richard Sutton 2
1 Flowers - Flowing Epigenetic Robots and Systems
Inria Bordeaux - Sud-Ouest, U2IS - Unité d'Informatique et d'Ingénierie des Systèmes
Résumé : L'apprentissage par renforcement est souvent considéré comme une solution potentielle pour permettre à un robot de s'adapter en temps réel aux changements imprédictibles d'un environnement ; mais avec des actions continues, peu d'algorithmes existants sont utilisables pour un tel apprentissage temps réel. Les méthodes les plus efficaces utilisent une politique paramétrée, souvent en combinaison avec une estimation, elle aussi paramétrée, de la fonction de valeur de cette politique. Le but de cet article est d'étudier de telles méthodes acteur-critique afin de constituer un algorithme complètement spécifié et utilisable en pratique. Nos contributions incluent 1) le développement d'une extension des algorithmes d'optimisation de politique par gradient pour l'utilisation des traces d'éligibilité, 2) une comparaison empirique des algorithmes résultants pour des actions continues, 3) l'évaluation d'une technique de mise à l'échelle du gradient qui peut améliorer les performances significativement. Finalement, nous appliquerons l'un de ces algorithmes sur un robot avec une boucle sensori-motrice rapide (10ms). L'ensemble de ces résultats constitue une étape importante pour la conception d'algorithmes de contrôle avec des actions continues et facilement utilisable en pratique.
Document type :
Conference papers
Complete list of metadatas

Cited literature [14 references]  Display  Hide  Download

https://hal.inria.fr/hal-00736314
Contributor : Olivier Buffet <>
Submitted on : Friday, September 28, 2012 - 8:53:02 AM
Last modification on : Sunday, November 4, 2018 - 7:54:02 AM
Long-term archiving on : Friday, December 16, 2016 - 6:12:02 PM

File

15.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-00736314, version 1

Citation

Nicolas Degris, Patrick Pilarski, Richard Sutton. Apprentissage par Renforcement sans Modèle et avec Action Continue. Journées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 11 p. ⟨hal-00736314⟩

Share

Metrics

Record views

224

Files downloads

247