Least-Squares λ Policy Iteration: Bias-Variance Trade-off in Control Problems

Christophe Thiery 1 Bruno Scherrer 1
1 MAIA - Autonomous intelligent machine
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Dans le contexte des Processus de Décision Markoviens (PDM) à grands espaces d'états avec approximation linéaire de la fonction de valeur, nous proposons un nouvel algorithme, Least-Squares λ Policy Iteration (LSλPI), qui généralise et hérite des propriétés intéressantes de deux algorithmes existants~: λ-Policy Iteration ($\lambda$PI) (Bertsekas et Ioffe, 1996) et Least-Squares Policy Iteration (LSPI) (Lagoudakis et Parr, 2003). Si le paramètre λ de λPI permet, comme dans la plupart des algorithmes du domaine, de faire un compromis biais-variance dans l'évaluation d'une politique, il introduit également de l'optimisme dans un schéma de type itération sur les politiques. A la manière de LSPI, l'algorithme que nous proposons ne nécessite pas de générer de nouveaux échantillons à chaque changement de politique (il est off-policy), les utilise de manière efficace (c'est une méthode du second ordre) et n'a pas besoin de disposer d'un modèle du PDM. Nous établissons un résultat analytique très général qui montre qu'il est raisonnable d'introduire de l'optimisme dans un schéma PI, dans le sens où il garantit la performance de la politique lorsque l'erreur d'approximation est contrôlée à chaque itération. Ce résultat s'applique en particulier à LS$\lambda$PI. Finalement, nous vérifions empiriquement sur un problème simple de type chaîne d'états et sur le jeu de Tetris l'intérêt de ce nouvel algorithme, en montrant que le paramètre λ permet d'améliorer la convergence et la performance de la politique obtenues par LSPI.
Type de document :
Communication dans un congrès
International Conference on Machine Learning, Jun 2010, Haifa, Israel. 2010
Liste complète des métadonnées

Littérature citée [14 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/inria-00520841
Contributeur : Christophe Thiery <>
Soumis le : vendredi 24 septembre 2010 - 13:27:30
Dernière modification le : jeudi 11 janvier 2018 - 06:19:50
Document(s) archivé(s) le : samedi 25 décembre 2010 - 02:54:17

Fichier

article.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00520841, version 1

Collections

Citation

Christophe Thiery, Bruno Scherrer. Least-Squares λ Policy Iteration: Bias-Variance Trade-off in Control Problems. International Conference on Machine Learning, Jun 2010, Haifa, Israel. 2010. 〈inria-00520841〉

Partager

Métriques

Consultations de la notice

417

Téléchargements de fichiers

518