Least-Squares λ Policy Iteration : optimisme et compromis biais-variance pour le contrôle optimal - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2010

Least-Squares λ Policy Iteration : optimisme et compromis biais-variance pour le contrôle optimal

Christophe Thiery
  • Fonction : Auteur
  • PersonId : 842769
Bruno Scherrer

Résumé

Dans le contexte des Processus de Décision Markoviens (PDM) à grands espaces d'états avec approximation linéaire de la fonction de valeur, nous proposons un nouvel algorithme, Least-Squares λ Policy Iteration (LSλPI), qui généralise et hérite des propriétés intéressantes de deux algorithmes existants~: λ-Policy Iteration (λPI) (Bertsekas et Ioffe, 1996) et Least-Squares Policy Iteration (LSPI) (Lagoudakis et Parr, 2003). Si le paramètre λ de λPI permet, comme dans la plupart des algorithmes du domaine, de faire un compromis biais-variance dans l'évaluation d'une politique, il introduit également de l'optimisme dans un schéma de type itération sur les politiques. A la manière de LSPI, l'algorithme que nous proposons ne nécessite pas de générer de nouveaux échantillons à chaque changement de politique (il est off-policy), les utilise de manière efficace (c'est une méthode du second ordre) et n'a pas besoin de disposer d'un modèle du PDM. Nous établissons un résultat analytique très général qui montre qu'il est raisonnable d'introduire de l'optimisme dans un schéma PI, dans le sens où il garantit la performance de la politique lorsque l'erreur d'approximation est contrôlée à chaque itération. Ce résultat s'applique en particulier à LSλPI. Finalement, nous vérifions empiriquement sur un problème simple de type chaîne d'états et sur le jeu de Tetris l'intérêt de ce nouvel algorithme, en montrant que le paramètre λ permet d'améliorer la convergence et la performance de la politique obtenues par LSPI.
Fichier principal
Vignette du fichier
thiery-christophe.pdf (560.22 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

inria-00520843 , version 1 (24-09-2010)

Identifiants

  • HAL Id : inria-00520843 , version 1

Citer

Christophe Thiery, Bruno Scherrer. Least-Squares λ Policy Iteration : optimisme et compromis biais-variance pour le contrôle optimal. Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes, Jun 2010, Besançon, France. ⟨inria-00520843⟩
174 Consultations
239 Téléchargements

Partager

Gmail Facebook X LinkedIn More