Un sélecteur de Dantzig pour l'apprentissage par différences temporelles

Matthieu Geist 1 Bruno Scherrer 2 Alessandro Lazaric 3 Mohammad Ghavamzadeh 3
1 IMS - Equipe Information, Multimodalité et Signal
UMI2958 - Georgia Tech - CNRS [Metz], SUPELEC-Campus Metz
2 MAIA - Autonomous intelligent machine
Inria Nancy - Grand Est, LORIA - AIS - Department of Complex Systems, Artificial Intelligence & Robotics
3 SEQUEL - Sequential Learning
LIFL - Laboratoire d'Informatique Fondamentale de Lille, Inria Lille - Nord Europe, LAGIS - Laboratoire d'Automatique, Génie Informatique et Signal
Résumé : En apprentissage par renforcement, LSTD est l'un des algorithmes d'approximation de la fonction de valeur les plus populaires. Lorsqu'il y a plus de fonctions de base que d'exemples, un problème se pose, qui peut être traité en combinant LSTD avec une forme de régularisation. En particulier, les méthodes de régularisation 1 tendent à sélectionner les fonctions de base (en favorisant la parcimonie des solutions) et sont donc particulièrement adaptées pour les problèmes de grande dimension. Toutefois, LSTD n'est pas un simple algorithme de régression ; il résout un problème de point fixe, l'intégration d'une régularisation 1 n'est pas évidente et peut entraîner certains inconvénients (comme l'hypothèse de P-matrice pour LASSO-TD). Cette contribution introduit un nouvel algorithme qui intègre LSTD au sélecteur de Dantzig, généralisant ce dernier à l'apprentissage par différences temporelles. En particulier, nous étudions les performances de l'algorithme proposé ainsi que son lien avec les approches de l'état de l'art, notamment la façon dont il surmonte certains inconvénients des solutions existantes.
Type de document :
Communication dans un congrès
Olivier Buffet. Journées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 13 p, 2012
Liste complète des métadonnées

Littérature citée [14 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00736229
Contributeur : Olivier Buffet <>
Soumis le : jeudi 27 septembre 2012 - 18:04:07
Dernière modification le : jeudi 5 avril 2018 - 12:30:24
Document(s) archivé(s) le : vendredi 28 décembre 2012 - 09:20:08

Fichier

3.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00736229, version 1

Citation

Matthieu Geist, Bruno Scherrer, Alessandro Lazaric, Mohammad Ghavamzadeh. Un sélecteur de Dantzig pour l'apprentissage par différences temporelles. Olivier Buffet. Journées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 13 p, 2012. 〈hal-00736229〉

Partager

Métriques

Consultations de la notice

543

Téléchargements de fichiers

186