Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés.

Alain Dutech 1 Manuel Samuelides 2
1 MAIA - Autonomous intelligent machine
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Nous présentons un nouvel algorithme qui contribue à étendre le formalisme de l'Apprentissage par Renforcement (RL) aux Processus Décisionnels Markoviens Partiellement Observés (POMDP). L'idée principale de notre méthode est de construire une extension d'état, appelée observable exhaustif, qui permet de définir un nouveau processus qui est alors markovien. Nous démontrons que résoudre ce nouveau processus, auquel on peut appliquer les techniques classiques de RL, apporte une solution optimale au POMDP original. Nous appliquons l'algorithme déduit de ce résultat sur plusieurs exemples pour en tester la validité et la robustesse. || We present a new algorithm that extends the Reinforcement Learning framework to Partially Observed Markov Decision Processes (POMDP). The main idea of our method is to build a state extension, called exhaustive observable, which allow us to define a next
Type de document :
Article dans une revue
Revue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle, Lavoisier, 2003, 17 (4), pp.559-589
Liste complète des métadonnées

https://hal.inria.fr/inria-00099563
Contributeur : Publications Loria <>
Soumis le : mardi 26 septembre 2006 - 09:38:45
Dernière modification le : jeudi 11 janvier 2018 - 06:19:51

Identifiants

  • HAL Id : inria-00099563, version 1

Collections

Citation

Alain Dutech, Manuel Samuelides. Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés.. Revue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle, Lavoisier, 2003, 17 (4), pp.559-589. 〈inria-00099563〉

Partager

Métriques

Consultations de la notice

194