Approximations de l'Algorithme Itérations sur les Politiques Modifié

Bruno Scherrer 1 Victor Gabillon 2 Mohammad Ghavamzadeh 2 Matthieu Geist 3
1 MAIA - Autonomous intelligent machine
Inria Nancy - Grand Est, LORIA - AIS - Department of Complex Systems, Artificial Intelligence & Robotics
2 SEQUEL - Sequential Learning
LIFL - Laboratoire d'Informatique Fondamentale de Lille, Inria Lille - Nord Europe, LAGIS - Laboratoire d'Automatique, Génie Informatique et Signal
3 IMS - Equipe Information, Multimodalité et Signal
UMI2958 - Georgia Tech - CNRS [Metz], SUPELEC-Campus Metz
Résumé : Itérations sur les politiques modifié (MPI) est un algorithme de programmation dynamique qui généralise les deux algorithmes célèbres Itérations sur les valeurs (VI) et sur les politiques (PI). Malgré sa généralité, cet algorithme - et particulièremet sa mise en œuvre approchée qui est utilisée lorsque les espaces d'états/actions sont très grands - n'a pas encore été l'objet d'une analyse approfondie. Nous proposons ici trois implémentations approchées de MPI (AMPI) qui sont des extensions d'algorithmes de la littérature (Fitted Value Iteration, Fitted Q-Iteration et Classification Based Policy Iteration). Nous développons une analyse de la propagation d'erreur qui unifie celles développées indépendemment pour VI et PI dans la littérature. Nous fournissons enfin une analyse en échantillons finis pour le dernier algorithme basé sur un classifieur de politiques, qui est en quelque sorte le plus général. Une observation intéressante est que la paramètre principal de MPI permet de contrôler, dans la borne de performance, l'équilibre entre les erreurs dans le calcul des valeurs et celles dans l'estimation de la politique gourmande.
Type de document :
Communication dans un congrès
Olivier Buffet. Journées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 1 p, 2012, 〈http://icml.cc/2012/papers/608.pdf〉
Liste complète des métadonnées

https://hal.inria.fr/hal-00736226
Contributeur : Olivier Buffet <>
Soumis le : jeudi 27 septembre 2012 - 18:02:03
Dernière modification le : jeudi 5 avril 2018 - 12:30:24

Identifiants

  • HAL Id : hal-00736226, version 1

Citation

Bruno Scherrer, Victor Gabillon, Mohammad Ghavamzadeh, Matthieu Geist. Approximations de l'Algorithme Itérations sur les Politiques Modifié. Olivier Buffet. Journées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 1 p, 2012, 〈http://icml.cc/2012/papers/608.pdf〉. 〈hal-00736226〉

Partager

Métriques

Consultations de la notice

408