Moindres carrés récursifs pour l'évaluation off-policy d'une politique avec traces d'éligibilité

Bruno Scherrer 1 Matthieu Geist 2
1 MAIA - Autonomous intelligent machine
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Dans le cadre des processus de décision Markoviens (MDPs), nous nous intéressons à l'apprentissage d'une \emph{approximation linéaire} de la fonction de valeur d'une politique fixe, lorsque les données sont constituées d'une unique trajectoire générée par une autre politique, c'est-à-dire que nous considérons le cas \emph{off-policy}. Nous présentons une manière systématique d'adapter l'ensemble des algorithmes de type moindres carrés proposés dans la littérature dans le cas \emph{on-policy} et n'utilisant pas nécessairement de traces d'éligibilité (LSTD~\citep{Boyan:2002}, LSPE)~\citep{Nedic:2003}, FPKF~\citep{Choi:2006} et GPTD~\citep{Engel:2005}/KTD~\citep{geist:jair}), de sorte à ce qu'ils puissent être appliqués dans le cas \emph{off-policy} avec des traces. Nous dérivons les formules pour une implémentation récursive de ces algorithmes, étudions leur convergence asymptotique et illustrons expérimentalement leur comportement. Si nous retrouvons les algorithmes off-policy LSTD($\lambda$)/LSPE($\lambda$) récemment proposés par \citet{Yu:2010}, les deux autres sont à notre connaissance nouveaux.
Document type :
Conference papers
Complete list of metadatas

https://hal.inria.fr/hal-00644874
Contributor : Bruno Scherrer <>
Submitted on : Friday, November 25, 2011 - 2:17:57 PM
Last modification on : Thursday, March 29, 2018 - 11:06:04 AM

Identifiers

  • HAL Id : hal-00644874, version 1

Collections

Citation

Bruno Scherrer, Matthieu Geist. Moindres carrés récursifs pour l'évaluation off-policy d'une politique avec traces d'éligibilité. 6ème Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes - JFPDA 2011, Jun 2011, Rouen, France. ⟨hal-00644874⟩

Share

Metrics

Record views

255