Apprentissage par renforcement

Aurélien Garivier

Document Associé À Des Manifestations Scientifiques Année : 2010

Apprentissage par renforcement

(1)

Aurélien Garivier

Fonction : Auteur
PersonId : 4986
IdHAL : aurelien-garivier
ORCID : 0000-0002-4906-9573
IdRef : 111902495

Laboratoire Traitement et Communication de l'Information

Résumé

Dans un problème d'apprentissage par renforcement, un agent évoluant dans un environnement aléatoire doit cumuler un maximum de récompenses en choisissant au fil du temps la meilleure politique, c'est-à-dire la meilleure réaction possible à ses observations. Une telle situation est modélisée par un processus de décision markovien : on suppose que la suite des états que traverse l'agent est une chaîne de Markov dont les noyaux de transitions successifs sont déterminés par les actions choisies, et on admet que la récompense reçue à chaque instant est une fonction (aléatoires) de l'état courant. Quand les propriétés probabilistes de l'environnement sont connues, la détermination de la politique optimale, qui constitue le problème dit de planification, est typiquement un problème de programmation dynamique.

Domaines

Statistiques [math.ST] Théorie [stat.TH]

Fichier principal

Renforcement.pdf (181.62 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Conférence Mas2010 : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00496719

Soumis le : jeudi 1 juillet 2010-10:32:41

Dernière modification le : lundi 22 avril 2024-15:34:56

Archivage à long terme le : lundi 22 octobre 2012-17:15:51

Dates et versions

inria-00496719 , version 1 (01-07-2010)

Identifiants

HAL Id : inria-00496719 , version 1

Citer

Aurélien Garivier. Apprentissage par renforcement. Journées MAS et Journée en l'honneur de Jacques Neveu, Aug 2010, Talence, France. ⟨inria-00496719⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM CNRS PARISTECH MAS2010 LTCI

319 Consultations

419 Téléchargements

Apprentissage par renforcement

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager