BRL Quasi-Optimal à l'aide de Transitions Locales Optimistes

Mauricio Araya 1, * Vincent Thomas 1 Olivier Buffet 1
* Auteur correspondant
1 MAIA - Autonomous intelligent machine
Inria Nancy - Grand Est, LORIA - AIS - Department of Complex Systems, Artificial Intelligence & Robotics
Résumé : L'apprentissage par renforcement bayésien basé modèle (BRL) permet une formalisation saine du problème consistant à agir optimalement face à un environnement inconnu, c'est-à-dire en évitant le dilemme exploration-exploitation. Toutefois, les algorithmes s'attaquant explicitement au BRL souffrent d'une telle explosion combinatoire qu'un grand nombre de travaux repose sur des algorithmes heuristiques. Cet article introduit BOLT, un algorithme heuristique simple et (presque) déterministe pour le BRL qui est optimiste vis à vis de la fonction de transition. Nous analysons la complexité d'échantillon de BOLT et montrons que, pour certains paramètres, l'algorithme est quasi-optimal au sens bayésien avec une grande probabilité. Puis, des résultats expérimentaux mettent en valeur les principales différences entre cette méthode et des travaux antérieurs.
Type de document :
Communication dans un congrès
Olivier Buffet. Journées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 16 p, 2012
Liste complète des métadonnées

https://hal.inria.fr/hal-00735602
Contributeur : Olivier Buffet <>
Soumis le : mercredi 26 septembre 2012 - 10:54:39
Dernière modification le : mardi 18 septembre 2018 - 14:04:02
Document(s) archivé(s) le : vendredi 16 décembre 2016 - 17:34:18

Fichier

jfpda6.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00735602, version 1

Citation

Mauricio Araya, Vincent Thomas, Olivier Buffet. BRL Quasi-Optimal à l'aide de Transitions Locales Optimistes. Olivier Buffet. Journées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 16 p, 2012. 〈hal-00735602〉

Partager

Métriques

Consultations de la notice

266

Téléchargements de fichiers

87