Apprentissage par renforcement - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Document Associé À Des Manifestations Scientifiques Année : 2010

Apprentissage par renforcement

Résumé

Dans un problème d'apprentissage par renforcement, un agent évoluant dans un environnement aléatoire doit cumuler un maximum de récompenses en choisissant au fil du temps la meilleure politique, c'est-à-dire la meilleure réaction possible à ses observations. Une telle situation est modélisée par un processus de décision markovien : on suppose que la suite des états que traverse l'agent est une chaîne de Markov dont les noyaux de transitions successifs sont déterminés par les actions choisies, et on admet que la récompense reçue à chaque instant est une fonction (aléatoires) de l'état courant. Quand les propriétés probabilistes de l'environnement sont connues, la détermination de la politique optimale, qui constitue le problème dit de planification, est typiquement un problème de programmation dynamique.
Fichier principal
Vignette du fichier
Renforcement.pdf (181.62 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

inria-00496719 , version 1 (01-07-2010)

Identifiants

  • HAL Id : inria-00496719 , version 1

Citer

Aurélien Garivier. Apprentissage par renforcement. Journées MAS et Journée en l'honneur de Jacques Neveu, Aug 2010, Talence, France. ⟨inria-00496719⟩
319 Consultations
419 Téléchargements

Partager

Gmail Facebook X LinkedIn More