Combiner connaissances expertes, hors-ligne, transientes et en ligne pour l'exploration Monte-Carlo

Louis Chatriot 1 Christophe Fiter 1 Guillaume Chaslot 2 Sylvain Gelly 1, 3, 4 Jean-Baptiste Hoock 1 J. Perez 1 Arpad Rimmel 1 Olivier Teytaud 1, 3, 4
1 TAO - Machine Learning and Optimisation
CNRS - Centre National de la Recherche Scientifique : UMR8623, Inria Saclay - Ile de France, UP11 - Université Paris-Sud - Paris 11, LRI - Laboratoire de Recherche en Informatique
3 TANC - Algorithmic number theory for cryptology
LIX - Laboratoire d'informatique de l'École polytechnique [Palaiseau], Inria Saclay - Ile de France, Polytechnique - X, CNRS - Centre National de la Recherche Scientifique : UMR7161
Résumé : Nous combinons pour de l'exploration Monte-Carlo d'arbres de l'apprentissage arti- RÉSUMÉ. ficiel à 4 échelles de temps : – regret en ligne, via l'utilisation d'algorithmes de bandit et d'estimateurs Monte-Carlo ; – de l'apprentissage transient, via l'utilisation d'estimateur rapide de Q-fonction (RAVE, pour Rapid Action Value Estimate) qui sont appris en ligne et utilisés pour accélérer l'explora- tion mais sont ensuite peu à peu laissés de côté à mesure que des informations plus fines sont disponibles ; – apprentissage hors-ligne, par fouille de données de jeux ; – utilisation de connaissances expertes comme information a priori. L'algorithme obtenu est plus fort que chaque élément séparément. Nous mettons en évidence par ailleurs un dilemne exploration-exploitation dans l'exploration Monte-Carlo d'arbres et obtenons une très forte amélioration par calage des paramètres correspondant. We combine for Monte-Carlo exploration machine learning at four different time ABSTRACT. scales: – online regret, through the use of bandit algorithms and Monte-Carlo estimates; – transient learning, through the use of rapid action value estimates (RAVE) which are learnt online and used for accelerating the exploration and are thereafter neglected; – offline learning, by data mining of datasets of games; – use of expert knowledge coming from the old ages as prior information.
Type de document :
Article dans une revue
Revue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle, Lavoisier, 2008
Liste complète des métadonnées

Littérature citée [14 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/inria-00343509
Contributeur : Olivier Teytaud <>
Soumis le : lundi 1 décembre 2008 - 17:40:09
Dernière modification le : jeudi 11 janvier 2018 - 06:22:14
Document(s) archivé(s) le : lundi 7 juin 2010 - 22:13:16

Fichier

eg_french.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00343509, version 1

Citation

Louis Chatriot, Christophe Fiter, Guillaume Chaslot, Sylvain Gelly, Jean-Baptiste Hoock, et al.. Combiner connaissances expertes, hors-ligne, transientes et en ligne pour l'exploration Monte-Carlo. Revue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle, Lavoisier, 2008. 〈inria-00343509〉

Partager

Métriques

Consultations de la notice

553

Téléchargements de fichiers

214