Multi-Armed Bandit Learning in IoT Networks: Learning helps even in non-stationary settings - Archive ouverte HAL Access content directly
Conference Papers Year : 2018

Multi-Armed Bandit Learning in IoT Networks: Learning helps even in non-stationary settings

Apprentissage de Bandit Multi-Bras dans les réseaux Internet des Objets: l'apprentissage est utile même dans des cas non-stationnaires

(1, 2, 3, 4) , (1, 5, 2, 3, 4) , (2, 1, 6) , (5, 7, 8) , (1, 2, 3, 4)
1
2
3
4
5
6
7
8

Abstract

Setting up the future Internet of Things (IoT) networks will require to support more and more communicating devices. We prove that intelligent devices in unlicensed bands can use Multi-Armed Bandit (MAB) learning algorithms to improve resource exploitation. We evaluate the performance of two classical MAB learning algorithms, UCB1 and Thompson Sampling, to handle the decentralized decision-making of Spectrum Access, applied to IoT networks; as well as learning performance with a growing number of intelligent end-devices. We show that using learning algorithms does help to fit more devices in such networks, even when all end-devices are intelligent and are dynamically changing channel. In the studied scenario, stochastic MAB learning provides a up to 16% gain in term of successful transmission probabilities, and has near optimal performance even in non-stationary and non-i.i.d. settings with a majority of intelligent devices.
La mise en place des futurs réseaux Internet des Objets (IoT) nécessitera de supporter de plus en plus d'appareils communicants. Nous prouvons que les objets adaptatifs, dans des bandes non licenciées, peuvent utiliser les algorithmes d'apprentissage de type Bandit Multi-Bras (MAB) pour améliorer l'exploitation des ressources. Nous évaluons les performances de deux algorithmes classiques d'apprentissage MAB, UCB1 et Thompson Sampling, pour prendre en charge la prise de décision décentralisée d'Analyse de Spectre, appliquée aux réseaux IoT, ainsi que les performances d'apprentissage avec un nombre croissant d'objets intelligents. Nous montrons que l'utilisation d'algorithmes d'apprentissage aide à adapter un plus grand nombre de dispositifs dans de tels réseaux, même lorsque tous les appareils finaux sont intelligents et changent de canal de façon dynamique. Dans le scénario étudié, l'apprentissage stochastique (MAB) fournit un gain allant jusqu'à 16% en terme de probabilités de transmission réussie, et a des performances quasi optimales même dans les situations non stationnaires et non i.i.d. avec une majorité d'appareils intelligents.
Fichier principal
Vignette du fichier
BBMKP_CROWNCOM_2017.pdf (218.42 Ko) Télécharger le fichier
Origin : Files produced by the author(s)

Dates and versions

hal-01575419 , version 1 (19-08-2017)
hal-01575419 , version 2 (02-07-2018)

Licence

Attribution - NonCommercial - ShareAlike - CC BY 4.0

Identifiers

Cite

Rémi Bonnefoi, Lilian Besson, Christophe Moy, Emilie Kaufmann, Jacques Palicot. Multi-Armed Bandit Learning in IoT Networks: Learning helps even in non-stationary settings. CROWNCOM 2017 - 12th EAI International Conference on Cognitive Radio Oriented Wireless Networks, Sep 2017, Lisbon, Portugal. pp.173-185, ⟨10.1007/978-3-319-76207-4_15⟩. ⟨hal-01575419v2⟩
1297 View
1632 Download

Altmetric

Share

Gmail Facebook Twitter LinkedIn More