Improving the exploration in Upper Confidence Trees

Adrien Couetoux 1 Hassen Doghmen 2 Olivier Teytaud 1, 2, 3
2 TAO - Machine Learning and Optimisation
CNRS - Centre National de la Recherche Scientifique : UMR8623, Inria Saclay - Ile de France, UP11 - Université Paris-Sud - Paris 11, LRI - Laboratoire de Recherche en Informatique
Abstract : In the standard version of the UCT algorithm, in the case of a continuous set of decisions, the exploration of new decisions is done through blind search. This can lead to very inefficient exploration, par- ticularly in the case of large dimension problems, which often happens in energy management problems, for instance. In an attempt to use the information gathered through past simulations to better explore new de- cisions, we propose a method named Blind Value (BV). It only requires the access to a function that randomly draws feasible decisions. We also implement it and compare it to the original version of continuous UCT. Our results show that it gives a significant increase in convergence speed, in dimensions 12 and 80.
Type de document :
Communication dans un congrès
Learning and Intelligent OptimizatioN Conference LION 6, Jan 2012, Paris, France. 2012
Liste complète des métadonnées

Littérature citée [8 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00745208
Contributeur : Adrien Couetoux <>
Soumis le : jeudi 25 octobre 2012 - 06:46:39
Dernière modification le : jeudi 11 janvier 2018 - 06:22:14
Document(s) archivé(s) le : samedi 26 janvier 2013 - 03:37:46

Fichier

BV.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00745208, version 1

Citation

Adrien Couetoux, Hassen Doghmen, Olivier Teytaud. Improving the exploration in Upper Confidence Trees. Learning and Intelligent OptimizatioN Conference LION 6, Jan 2012, Paris, France. 2012. 〈hal-00745208〉

Partager

Métriques

Consultations de la notice

261

Téléchargements de fichiers

130