Un sélecteur de Dantzig pour l'apprentissage par différences temporelles

Matthieu Geist; Bruno Scherrer; Alessandro Lazaric; Mohammad Ghavamzadeh

Communication Dans Un Congrès Année : 2012

Un sélecteur de Dantzig pour l'apprentissage par différences temporelles

(1) , (2) , (3) , (3)

1
2
3

Matthieu Geist

Fonction : Auteur
PersonId : 6945
IdHAL : matthieu-geist

IMS : Information, Multimodalité & Signal

Bruno Scherrer

Fonction : Auteur
PersonId : 1406
IdHAL : bruno-scherrer
IdRef : 073360708

Autonomous intelligent machine

Alessandro Lazaric

Fonction : Auteur
PersonId : 851
IdHAL : alessandro-lazaric
ORCID : 0000-0002-8970-413X
IdRef : 188701486

Sequential Learning

Mohammad Ghavamzadeh

Fonction : Auteur
PersonId : 868946

Sequential Learning

Résumé

En apprentissage par renforcement, LSTD est l'un des algorithmes d'approximation de la fonction de valeur les plus populaires. Lorsqu'il y a plus de fonctions de base que d'exemples, un problème se pose, qui peut être traité en combinant LSTD avec une forme de régularisation. En particulier, les méthodes de régularisation 1 tendent à sélectionner les fonctions de base (en favorisant la parcimonie des solutions) et sont donc particulièrement adaptées pour les problèmes de grande dimension. Toutefois, LSTD n'est pas un simple algorithme de régression ; il résout un problème de point fixe, l'intégration d'une régularisation 1 n'est pas évidente et peut entraîner certains inconvénients (comme l'hypothèse de P-matrice pour LASSO-TD). Cette contribution introduit un nouvel algorithme qui intègre LSTD au sélecteur de Dantzig, généralisant ce dernier à l'apprentissage par différences temporelles. En particulier, nous étudions les performances de l'algorithme proposé ainsi que son lien avec les approches de l'état de l'art, notamment la façon dont il surmonte certains inconvénients des solutions existantes.

Domaines

Intelligence artificielle [cs.AI]

Fichier principal

3.pdf (536.7 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Olivier Buffet : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-00736229

Soumis le : jeudi 27 septembre 2012-18:04:07

Dernière modification le : jeudi 1 février 2024-10:06:30

Archivage à long terme le : vendredi 28 décembre 2012-09:20:08

Dates et versions

hal-00736229 , version 1 (27-09-2012)

Identifiants

HAL Id : hal-00736229 , version 1

Citer

Matthieu Geist, Bruno Scherrer, Alessandro Lazaric, Mohammad Ghavamzadeh. Un sélecteur de Dantzig pour l'apprentissage par différences temporelles. Journées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 13 p. ⟨hal-00736229⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

SUPELEC UNIV-RENNES1 UNIV-LILLE3 CNRS INRIA IRISA LAGIS JFPDA2012 UNIV-LORRAINE INRIA2 LORIA LORIA-AIS UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES UR1-MATH-NUM

278 Consultations

237 Téléchargements

Un sélecteur de Dantzig pour l'apprentissage par différences temporelles

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager