Bandits Manchots sur Flux de Données Non Stationnaires

Robin Allesiardo 1, 2
2 TAO - Machine Learning and Optimisation
CNRS - Centre National de la Recherche Scientifique : UMR8623, Inria Saclay - Ile de France, UP11 - Université Paris-Sud - Paris 11, LRI - Laboratoire de Recherche en Informatique
Résumé : Le problème des bandits manchots est un cadre théorique permettant d'étudier le compromis entre exploration et exploitation lorsque l'information observée est partielle. Dans celui-ci, un joueur dispose d'un ensemble de K bras (ou actions), chacun associé à une distribution de récompenses D(µk) de moyenne µk Є [0, 1] et de support [0, 1]. A chaque tour t Є [1, T], il choisit un bras kt et observe la récompense y kt tirée depuis D (µkt). La difficulté du problème vient du fait que le joueur observe uniquement la récompense associée au bras joué; il ne connaît pas celle qui aurait pu être obtenue en jouant un autre bras. À chaque choix, il est ainsi confronté au dilemme entre l'exploration et l'exploitation; explorer lui permet d'affiner sa connaissance des distributions associées aux bras explorés tandis qu'exploiter lui permet d'accumuler davantage de récompenses en jouant le meilleur bras empirique (sous réserve que le meilleur bras empirique soit effectivement le meilleur bras). Dans la première partie de la thèse nous aborderons le problème des bandits manchots lorsque les distributions générant les récompenses sont non-stationnaires. Nous étudierons dans un premier temps le cas où même si les distributions varient au cours du temps, le meilleur bras ne change pas. Nous étudierons ensuite le cas où le meilleur bras peut aussi changer au cours du temps. La seconde partie est consacrée aux algorithmes de bandits contextuels où les récompenses dépendent de l'état de l'environnement. Nous étudierons l'utilisation des réseaux de neurones et des forêts d'arbres dans le cas des bandits contextuels puis les différentes approches à base de méta-bandits permettant de sélectionner en ligne l'expert le plus performant durant son apprentissage.
Type de document :
Thèse
Intelligence artificielle [cs.AI]. Université Paris-Saclay, 2016. Français. 〈NNT : 2016SACLS334〉
Liste complète des métadonnées

https://hal.inria.fr/tel-01420663
Contributeur : Abes Star <>
Soumis le : mercredi 17 mai 2017 - 18:45:08
Dernière modification le : jeudi 5 avril 2018 - 12:30:12
Document(s) archivé(s) le : lundi 21 août 2017 - 00:31:09

Fichier

75550_ALLESIARDO_2016_diffusio...
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01420663, version 3

Citation

Robin Allesiardo. Bandits Manchots sur Flux de Données Non Stationnaires. Intelligence artificielle [cs.AI]. Université Paris-Saclay, 2016. Français. 〈NNT : 2016SACLS334〉. 〈tel-01420663v3〉

Partager

Métriques

Consultations de la notice

230

Téléchargements de fichiers

254