Apprentissage par Renforcement sans Modèle et avec Action Continue

Nicolas Degris 1 Patrick Pilarski 2 Richard Sutton 2
1 Flowers - Flowing Epigenetic Robots and Systems
Inria Bordeaux - Sud-Ouest, U2IS - Unité d'Informatique et d'Ingénierie des Systèmes
Résumé : L'apprentissage par renforcement est souvent considéré comme une solution potentielle pour permettre à un robot de s'adapter en temps réel aux changements imprédictibles d'un environnement ; mais avec des actions continues, peu d'algorithmes existants sont utilisables pour un tel apprentissage temps réel. Les méthodes les plus efficaces utilisent une politique paramétrée, souvent en combinaison avec une estimation, elle aussi paramétrée, de la fonction de valeur de cette politique. Le but de cet article est d'étudier de telles méthodes acteur-critique afin de constituer un algorithme complètement spécifié et utilisable en pratique. Nos contributions incluent 1) le développement d'une extension des algorithmes d'optimisation de politique par gradient pour l'utilisation des traces d'éligibilité, 2) une comparaison empirique des algorithmes résultants pour des actions continues, 3) l'évaluation d'une technique de mise à l'échelle du gradient qui peut améliorer les performances significativement. Finalement, nous appliquerons l'un de ces algorithmes sur un robot avec une boucle sensori-motrice rapide (10ms). L'ensemble de ces résultats constitue une étape importante pour la conception d'algorithmes de contrôle avec des actions continues et facilement utilisable en pratique.
Type de document :
Communication dans un congrès
Olivier Buffet. Journées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 11 p, 2012
Liste complète des métadonnées

Littérature citée [14 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00736314
Contributeur : Olivier Buffet <>
Soumis le : vendredi 28 septembre 2012 - 08:53:02
Dernière modification le : jeudi 16 novembre 2017 - 17:12:01
Document(s) archivé(s) le : vendredi 16 décembre 2016 - 18:12:02

Fichier

15.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00736314, version 1

Collections

Citation

Nicolas Degris, Patrick Pilarski, Richard Sutton. Apprentissage par Renforcement sans Modèle et avec Action Continue. Olivier Buffet. Journées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 11 p, 2012. 〈hal-00736314〉

Partager

Métriques

Consultations de la notice

163

Téléchargements de fichiers

166