Moindres carrés récursifs pour l'évaluation off-policy d'une politique avec traces d'éligibilité

Bruno Scherrer 1 Matthieu Geist 2
1 MAIA - Autonomous intelligent machine
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Dans le cadre des processus de décision Markoviens (MDPs), nous nous intéressons à l'apprentissage d'une \emph{approximation linéaire} de la fonction de valeur d'une politique fixe, lorsque les données sont constituées d'une unique trajectoire générée par une autre politique, c'est-à-dire que nous considérons le cas \emph{off-policy}. Nous présentons une manière systématique d'adapter l'ensemble des algorithmes de type moindres carrés proposés dans la littérature dans le cas \emph{on-policy} et n'utilisant pas nécessairement de traces d'éligibilité (LSTD~\citep{Boyan:2002}, LSPE)~\citep{Nedic:2003}, FPKF~\citep{Choi:2006} et GPTD~\citep{Engel:2005}/KTD~\citep{geist:jair}), de sorte à ce qu'ils puissent être appliqués dans le cas \emph{off-policy} avec des traces. Nous dérivons les formules pour une implémentation récursive de ces algorithmes, étudions leur convergence asymptotique et illustrons expérimentalement leur comportement. Si nous retrouvons les algorithmes off-policy LSTD($\lambda$)/LSPE($\lambda$) récemment proposés par \citet{Yu:2010}, les deux autres sont à notre connaissance nouveaux.
Type de document :
Communication dans un congrès
6ème Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes - JFPDA 2011, Jun 2011, Rouen, France. 2011
Liste complète des métadonnées

https://hal.inria.fr/hal-00644874
Contributeur : Bruno Scherrer <>
Soumis le : vendredi 25 novembre 2011 - 14:17:57
Dernière modification le : jeudi 29 mars 2018 - 11:06:04

Identifiants

  • HAL Id : hal-00644874, version 1

Collections

Citation

Bruno Scherrer, Matthieu Geist. Moindres carrés récursifs pour l'évaluation off-policy d'une politique avec traces d'éligibilité. 6ème Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes - JFPDA 2011, Jun 2011, Rouen, France. 2011. 〈hal-00644874〉

Partager

Métriques

Consultations de la notice

229