Moindres carrés récursifs pour l'évaluation off-policy d'une politique avec traces d'éligibilité

Bruno Scherrer; Matthieu Geist

Communication Dans Un Congrès Année : 2011

Moindres carrés récursifs pour l'évaluation off-policy d'une politique avec traces d'éligibilité

(1) , (2)

1
2

Bruno Scherrer

Fonction : Auteur
PersonId : 1406
IdHAL : bruno-scherrer
IdRef : 073360708

Autonomous intelligent machine

Matthieu Geist

Fonction : Auteur
PersonId : 6945
IdHAL : matthieu-geist

SUPELEC-Campus Metz

Résumé

Dans le cadre des processus de décision Markoviens (MDPs), nous nous intéressons à l'apprentissage d'une \emph{approximation linéaire} de la fonction de valeur d'une politique fixe, lorsque les données sont constituées d'une unique trajectoire générée par une autre politique, c'est-à-dire que nous considérons le cas \emph{off-policy}. Nous présentons une manière systématique d'adapter l'ensemble des algorithmes de type moindres carrés proposés dans la littérature dans le cas \emph{on-policy} et n'utilisant pas nécessairement de traces d'éligibilité (LSTD~\citep{Boyan:2002}, LSPE)~\citep{Nedic:2003}, FPKF~\citep{Choi:2006} et GPTD~\citep{Engel:2005}/KTD~\citep{geist:jair}), de sorte à ce qu'ils puissent être appliqués dans le cas \emph{off-policy} avec des traces. Nous dérivons les formules pour une implémentation récursive de ces algorithmes, étudions leur convergence asymptotique et illustrons expérimentalement leur comportement. Si nous retrouvons les algorithmes off-policy LSTD($\lambda$)/LSPE($\lambda$) récemment proposés par \citet{Yu:2010}, les deux autres sont à notre connaissance nouveaux.

Domaines

Intelligence artificielle [cs.AI]

Bruno Scherrer : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-00644874

Soumis le : vendredi 25 novembre 2011-14:17:57

Dernière modification le : vendredi 24 mars 2023-14:52:55

Dates et versions

hal-00644874 , version 1 (25-11-2011)

Identifiants

HAL Id : hal-00644874 , version 1

Citer

Bruno Scherrer, Matthieu Geist. Moindres carrés récursifs pour l'évaluation off-policy d'une politique avec traces d'éligibilité. 6ème Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes - JFPDA 2011, Jun 2011, Rouen, France. ⟨hal-00644874⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

SUPELEC CNRS INRIA SUP_IMS UNIV-LORRAINE INRIA2 LORIA

92 Consultations

0 Téléchargements

Moindres carrés récursifs pour l'évaluation off-policy d'une politique avec traces d'éligibilité

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager