LSPI with Random Projections

Mohammad Ghavamzadeh 1 Alessandro Lazaric 1 Odalric Maillard 1 Rémi Munos 1
1 SEQUEL - Sequential Learning
LIFL - Laboratoire d'Informatique Fondamentale de Lille, LAGIS - Laboratoire d'Automatique, Génie Informatique et Signal, Inria Lille - Nord Europe
Abstract : We consider the problem of reinforcement learning in high-dimensional spaces when the number of features is bigger than the number of samples. In particular, we study the least-squares temporal difference (LSTD) learning algorithm when a space of low dimension is generated with a random projection from a high-dimensional space. We provide a thorough theoretical analysis of the LSTD with random projections and derive performance bounds for the resulting algorithm. We also show how the error of LSTD with random projections is propagated through the iterations of a policy iteration algorithm and provide a performance bound for the resulting least-squares policy iteration (LSPI) algorithm.
Type de document :
Rapport
[Technical Report] 2010
Liste complète des métadonnées

Littérature citée [21 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/inria-00530762
Contributeur : Mohammad Ghavamzadeh <>
Soumis le : vendredi 29 octobre 2010 - 18:23:43
Dernière modification le : jeudi 11 janvier 2018 - 06:22:13
Document(s) archivé(s) le : vendredi 26 octobre 2012 - 12:45:29

Fichier

randproj-lspi.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00530762, version 1

Collections

Citation

Mohammad Ghavamzadeh, Alessandro Lazaric, Odalric Maillard, Rémi Munos. LSPI with Random Projections. [Technical Report] 2010. 〈inria-00530762〉

Partager

Métriques

Consultations de la notice

413

Téléchargements de fichiers

184