inria-00343509, version 1
Combiner connaissances expertes, hors-ligne, transientes et en ligne pour l'exploration Monte-Carlo
Louis Chatriot 1Christophe Fiter 1Guillaume Chaslot a, 2Sylvain Gelly 1, 3, 4Jean-Baptiste Hoock 1J. Perez 1Arpad Rimmel 1Olivier Teytaud
1, 3, 4
Revue d'Intelligence Artificielle (2008)
Résumé : Nous combinons pour de l'exploration Monte-Carlo d'arbres de l'apprentissage arti- RÉSUMÉ. ficiel à 4 échelles de temps : – regret en ligne, via l'utilisation d'algorithmes de bandit et d'estimateurs Monte-Carlo ; – de l'apprentissage transient, via l'utilisation d'estimateur rapide de Q-fonction (RAVE, pour Rapid Action Value Estimate) qui sont appris en ligne et utilisés pour accélérer l'explora- tion mais sont ensuite peu à peu laissés de côté à mesure que des informations plus fines sont disponibles ; – apprentissage hors-ligne, par fouille de données de jeux ; – utilisation de connaissances expertes comme information a priori. L'algorithme obtenu est plus fort que chaque élément séparément. Nous mettons en évidence par ailleurs un dilemne exploration-exploitation dans l'exploration Monte-Carlo d'arbres et obtenons une très forte amélioration par calage des paramètres correspondant. We combine for Monte-Carlo exploration machine learning at four different time ABSTRACT. scales: – online regret, through the use of bandit algorithms and Monte-Carlo estimates; – transient learning, through the use of rapid action value estimates (RAVE) which are learnt online and used for accelerating the exploration and are thereafter neglected; – offline learning, by data mining of datasets of games; – use of expert knowledge coming from the old ages as prior information.
- a – University of Maastricht
- 1 : TAO (INRIA Saclay - Ile de France)
- INRIA – CNRS : UMR8623 – Université Paris XI - Paris Sud
- 2 : Maastricht University
- univ. Maastricht
- 3 : TAO (INRIA Futurs)
- INRIA – CNRS : UMR8623 – Université Paris XI - Paris Sud
- 4 : Laboratoire de Recherche en Informatique (LRI)
- CNRS : UMR8623 – Université Paris XI - Paris Sud
- Domaine : Mathématiques/Optimisation et contrôle
Informatique/Apprentissage - Mots-clés : computer-go – transient learning – expert knowledge – offline learning – online learning – Monte-Carlo Tree Search – UCT
- inria-00343509, version 1
- http://hal.inria.fr/inria-00343509
- oai:hal.inria.fr:inria-00343509
- Contributeur : Olivier Teytaud
- Soumis le : Lundi 1 Décembre 2008, 17:40:09
- Dernière modification le : Lundi 1 Décembre 2008, 17:45:41






Documents associés
Exporter