Skip to Main content Skip to Navigation
Conference papers

Multi-Player Bandits Revisited

Résumé : Les bandits multi-joueurs multiarmes (MAB) ont fait l'objet d'études approfondies dans la littérature, motivés par des applications aux systèmes de radio intelligente. De telles applications motivent l'introduction de plusieurs niveaux d'informations pour les algorithmes MAB multi-joueurs. La plupart des travaux récents supposent que l'algorithme dispose d'informations de détection (sensing). Dans cette hypothèse, nous améliorons la meilleure borne inférieure connue pour le regret de tout algorithme décentralisé, et introduisons deux algorithmes, RandTopM et MCTopM, qui sont empiriquement meilleurs par rapport aux algorithmes existants. De plus, nous fournissons de solides garanties théoriques pour ces algorithmes, y compris une notion d'optimalité asymptotique en termes de nombre de sélections des mauvais bras. Nous introduisons ensuite une heuristique prometteuse, appelée Selfish, qui peut fonctionner sans utiliser le sensing, ce qui est crucial pour les applications émergentes aux réseaux de type Internet des Objets. Nous étudions les performances empiriques de cet algorithme et fournissons quelques premiers éléments théoriques pour la compréhension de son comportement.
Document type :
Conference papers
Complete list of metadatas

https://hal.inria.fr/hal-01629733
Contributor : Lilian Besson <>
Submitted on : Monday, March 12, 2018 - 6:48:06 PM
Last modification on : Monday, May 18, 2020 - 1:54:55 PM

Files

BK__ALT_2018.pdf
Files produced by the author(s)

Licence


Distributed under a Creative Commons Attribution - NonCommercial - ShareAlike 4.0 International License

Identifiers

  • HAL Id : hal-01629733, version 2
  • ARXIV : 1711.02317

Citation

Lilian Besson, Emilie Kaufmann. Multi-Player Bandits Revisited. Algorithmic Learning Theory, Mehryar Mohri; Karthik Sridharan, Apr 2018, Lanzarote, Spain. ⟨hal-01629733v2⟩

Share

Metrics

Record views

747

Files downloads

1353