Least-Squares λ Policy Iteration : optimisme et compromis biais-variance pour le contrôle optimal

Christophe Thiery 1 Bruno Scherrer 1
1 MAIA - Autonomous intelligent machine
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Dans le contexte des Processus de Décision Markoviens (PDM) à grands espaces d'états avec approximation linéaire de la fonction de valeur, nous proposons un nouvel algorithme, Least-Squares λ Policy Iteration (LSλPI), qui généralise et hérite des propriétés intéressantes de deux algorithmes existants~: λ-Policy Iteration (λPI) (Bertsekas et Ioffe, 1996) et Least-Squares Policy Iteration (LSPI) (Lagoudakis et Parr, 2003). Si le paramètre λ de λPI permet, comme dans la plupart des algorithmes du domaine, de faire un compromis biais-variance dans l'évaluation d'une politique, il introduit également de l'optimisme dans un schéma de type itération sur les politiques. A la manière de LSPI, l'algorithme que nous proposons ne nécessite pas de générer de nouveaux échantillons à chaque changement de politique (il est off-policy), les utilise de manière efficace (c'est une méthode du second ordre) et n'a pas besoin de disposer d'un modèle du PDM. Nous établissons un résultat analytique très général qui montre qu'il est raisonnable d'introduire de l'optimisme dans un schéma PI, dans le sens où il garantit la performance de la politique lorsque l'erreur d'approximation est contrôlée à chaque itération. Ce résultat s'applique en particulier à LSλPI. Finalement, nous vérifions empiriquement sur un problème simple de type chaîne d'états et sur le jeu de Tetris l'intérêt de ce nouvel algorithme, en montrant que le paramètre λ permet d'améliorer la convergence et la performance de la politique obtenues par LSPI.
Document type :
Conference papers
Complete list of metadatas

https://hal.inria.fr/inria-00520843
Contributor : Christophe Thiery <>
Submitted on : Friday, September 24, 2010 - 1:30:49 PM
Last modification on : Thursday, January 11, 2018 - 6:19:50 AM
Long-term archiving on : Thursday, June 30, 2011 - 12:59:35 PM

File

thiery-christophe.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : inria-00520843, version 1

Collections

Citation

Christophe Thiery, Bruno Scherrer. Least-Squares λ Policy Iteration : optimisme et compromis biais-variance pour le contrôle optimal. Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes, Jun 2010, Besançon, France. ⟨inria-00520843⟩

Share

Metrics

Record views

274

Files downloads

337