Improving offline evaluation of contextual bandit algorithms via bootstrapping techniques

Olivier Nicol 1, 2 Jérémie Mary 1, 2 Philippe Preux 1, 2
1 SEQUEL - Sequential Learning
LIFL - Laboratoire d'Informatique Fondamentale de Lille, Inria Lille - Nord Europe, LAGIS - Laboratoire d'Automatique, Génie Informatique et Signal
Résumé : Nous nous intéressons au problème de recommendation dans le contexte où l'ensemble d'items recommendables évolue à un rythme élevé. Les algorithmes d'apprentissage en-ligne constituent une solution à ce problème. Les bandits contextuels ont été introduits à cet effet. D'une manière générale, l'évaluation des systèmes de recommendaiton est un problème critique. L'évaluation en-ligne est rarement possible. Reste alors l'évaluation face à un modèle ou l'évaluation basée sur des historiques d'interaction utilisateurs/système de recommendation. Dans cet article, nous considérons cette seconde alternative. La précision des solutions existants dans la littérature n'est pas satisfaisante. C'est ce point que nous étudions ici. Après avoir montré les limites des méthodes existantes, nous présentons une nouvelle approche basée sur la technique de bootstrap. Cette méthode apporte deux avantages : sa précision est plus grande que celle proposée jusqu'à maintenant et il est possible d'estimer sa qualité. Ce dernier point est particulièrement important pour minimiser les risques lors de la mise en ligne de l'algorithme de recommendation. Nous proposons des arguments théoriques et expérimentaux quant à la supériorité de cette méthode par rapport à l'état de l'art. Nous étudions également formellement la convergence de l'estimateur.
Type de document :
Communication dans un congrès
Eric Xing; Tony Jebara. International Conference on Machine Learning, Jun 2014, Beijing, China. 32, 2014, Journal of Machine Learning Research, Workshop and Conference Proceedings; Proceedings of The 31st International Conference on Machine Learning. 〈http://jmlr.org/proceedings/papers/v32/〉
Liste complète des métadonnées

https://hal.inria.fr/hal-00990840
Contributeur : Preux Philippe <>
Soumis le : mercredi 14 mai 2014 - 11:34:46
Dernière modification le : jeudi 11 janvier 2018 - 06:22:13
Document(s) archivé(s) le : jeudi 14 août 2014 - 11:30:20

Fichiers

Improving-offline-evaluation-o...
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00990840, version 1
  • ARXIV : 1405.3536

Citation

Olivier Nicol, Jérémie Mary, Philippe Preux. Improving offline evaluation of contextual bandit algorithms via bootstrapping techniques. Eric Xing; Tony Jebara. International Conference on Machine Learning, Jun 2014, Beijing, China. 32, 2014, Journal of Machine Learning Research, Workshop and Conference Proceedings; Proceedings of The 31st International Conference on Machine Learning. 〈http://jmlr.org/proceedings/papers/v32/〉. 〈hal-00990840〉

Partager

Métriques

Consultations de la notice

579

Téléchargements de fichiers

478