Fitted Q-iteration in continuous action-space MDPs

Andras Antos; Rémi Munos; Csaba Szepesvari

Communication Dans Un Congrès Année : 2007

Fitted Q-iteration in continuous action-space MDPs

(1) , (2) , (1)

1
2

Andras Antos

Fonction : Auteur

Computer and Automation Research Institute [Budapest]

Rémi Munos

Fonction : Auteur
PersonId : 836863

Sequential Learning

Csaba Szepesvari

Fonction : Auteur

Computer and Automation Research Institute [Budapest]

Résumé

We consider continuous state, continuous action batch reinforcement learning where the goal is to learn a good policy from a sufﬁciently rich trajectory generated by some policy. We study a variant of ﬁtted Q-iteration, where the greedy action selection is replaced by searching for a policy in a restricted set of candidate policies by maximizing the average action values. We provide a rigorous analysis of this algorithm, proving what we believe is the ﬁrst ﬁnite-time bound for value-function based algorithms for continuous state and action problems.

Domaines

Apprentissage [cs.LG]

Fichier principal

rlca.pdf (129.85 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Rémi Munos : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00203359

Soumis le : mercredi 9 janvier 2008-17:08:45

Dernière modification le : vendredi 24 mars 2023-14:52:49

Archivage à long terme le : jeudi 27 septembre 2012-14:00:51

Dates et versions

inria-00203359 , version 1 (09-01-2008)

Identifiants

HAL Id : inria-00203359 , version 1

Citer

Andras Antos, Rémi Munos, Csaba Szepesvari. Fitted Q-iteration in continuous action-space MDPs. Neural Information Processing Systems, 2007, Vancouver, Canada. ⟨inria-00203359⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-LILLE3 CNRS INRIA LAGIS INRIA2

231 Consultations

257 Téléchargements

Fitted Q-iteration in continuous action-space MDPs

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager