Vitesse de convergence et borne d'erreur pour l'algorithme LSTD($\lambda$)

Manel Tagorti 1 Bruno Scherrer 1
1 MAIA - Autonomous intelligent machine
Inria Nancy - Grand Est, LORIA - AIS - Department of Complex Systems, Artificial Intelligence & Robotics
Résumé : On considère l'algorithme LSTD($\lambda$) (least-squares temporal-difference) avec traces d'éligibilité proposé par Boyan (2002). Cet algorithme renvoie, pour une politique fixée, une approximation linéaire de la fonction de valeur $v$ pour les processus décisionnels de Markov admettant un grand espace d'états. On se restreint dans cet article au cas des chaînes de Markov $\beta$-mélangeantes. Sous cette hypothèse, on estime la vitesse de convergence de cet algorithme pour n'importe quelle valeur de $\lambda\in(0,1)$. La borne d'erreur obtenue étend et améliore celle introduite par Lazaric et al. (2012) pour le cas $\lambda=0$. L'analyse proposée permet de quantifier l'influence du paramètre $\lambda$, de l'espace linéaire de projection et du nombre d'échantillons utilisés.
Type de document :
Communication dans un congrès
JFPDA - 9èmes Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes, May 2014, Liège, Belgique. 2014
Liste complète des métadonnées

Littérature citée [6 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00990508
Contributeur : Bruno Scherrer <>
Soumis le : mardi 13 mai 2014 - 15:41:01
Dernière modification le : jeudi 11 janvier 2018 - 06:25:23
Document(s) archivé(s) le : lundi 10 avril 2017 - 22:27:03

Fichiers

tagorti-manel.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00990508, version 1

Citation

Manel Tagorti, Bruno Scherrer. Vitesse de convergence et borne d'erreur pour l'algorithme LSTD($\lambda$). JFPDA - 9èmes Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes, May 2014, Liège, Belgique. 2014. 〈hal-00990508〉

Partager

Métriques

Consultations de la notice

434

Téléchargements de fichiers

409