Apprentissage par renforcement

Résumé : Dans un problème d'apprentissage par renforcement, un agent évoluant dans un environnement aléatoire doit cumuler un maximum de récompenses en choisissant au fil du temps la meilleure politique, c'est-à-dire la meilleure réaction possible à ses observations. Une telle situation est modélisée par un processus de décision markovien : on suppose que la suite des états que traverse l'agent est une chaîne de Markov dont les noyaux de transitions successifs sont déterminés par les actions choisies, et on admet que la récompense reçue à chaque instant est une fonction (aléatoires) de l'état courant. Quand les propriétés probabilistes de l'environnement sont connues, la détermination de la politique optimale, qui constitue le problème dit de planification, est typiquement un problème de programmation dynamique.
Type de document :
Documents associés à des manifestations scientifiques -- Hal-inria+
Journées MAS et Journée en l'honneur de Jacques Neveu, Aug 2010, Talence, France
Liste complète des métadonnées

https://hal.inria.fr/inria-00496719
Contributeur : Conférence Mas2010 <>
Soumis le : jeudi 1 juillet 2010 - 10:32:41
Dernière modification le : jeudi 11 janvier 2018 - 06:23:39
Document(s) archivé(s) le : lundi 22 octobre 2012 - 17:15:51

Fichier

Renforcement.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00496719, version 1

Citation

Aurelien Garivier. Apprentissage par renforcement. Journées MAS et Journée en l'honneur de Jacques Neveu, Aug 2010, Talence, France. 〈inria-00496719〉

Partager

Métriques

Consultations de la notice

283

Téléchargements de fichiers

153