Bellmanian Bandit Network

Antoine Bureau 1, 2 Michèle Sebag 1, 3, 2
2 TAO - Machine Learning and Optimisation
LRI - Laboratoire de Recherche en Informatique, UP11 - Université Paris-Sud - Paris 11, Inria Saclay - Ile de France, CNRS - Centre National de la Recherche Scientifique : UMR8623
Abstract : This paper presents a new reinforcement learning (RL) algorithm called Bellmanian Bandit Network (BBN), where action selection in each state is formalized as a multi-armed bandit problem. The first contribution lies in the definition of an exploratory reward inspired from the intrinsic motivation criterion [1], combined with the RL reward. The second contribution is to use a network of multi-armed bandits to achieve the convergence toward the optimal Q-value function. The BBN algorithm is validated in stationary and non-stationary grid-world environments, comparatively to [1].
Type de document :
Communication dans un congrès
Autonomously Learning Robots, at NIPS 2014, Dec 2014, Montréal, Canada. 2014, 〈http://nips.cc/Conferences/2014/〉
Liste complète des métadonnées

Littérature citée [13 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01102970
Contributeur : Antoine Bureau <>
Soumis le : mardi 13 janvier 2015 - 17:18:23
Dernière modification le : jeudi 5 avril 2018 - 12:30:12
Document(s) archivé(s) le : samedi 15 avril 2017 - 17:22:40

Fichier

nips14_BBN.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01102970, version 1

Collections

Citation

Antoine Bureau, Michèle Sebag. Bellmanian Bandit Network. Autonomously Learning Robots, at NIPS 2014, Dec 2014, Montréal, Canada. 2014, 〈http://nips.cc/Conferences/2014/〉. 〈hal-01102970〉

Partager

Métriques

Consultations de la notice

344

Téléchargements de fichiers

342