Aggregation of Multi-Armed Bandits Learning Algorithms for Opportunistic Spectrum Access

Lilian Besson 1, 2, 3 Emilie Kaufmann 3 Christophe Moy 1
3 SEQUEL - Sequential Learning
Inria Lille - Nord Europe, CRIStAL - Centre de Recherche en Informatique, Signal et Automatique de Lille (CRIStAL) - UMR 9189
Résumé : Des algorithmes de bandits multi-bras ont récemment été étudiés et évalués pour la radio cognitive (CR), en particulier dans le contexte de l'accès opportuniste au spectre (OSA). Plusieurs solutions ont été explorées sur la base de différents modèles, mais il est difficile de prédire exactement lesquelles pourraient être les meilleures pour des conditions réelles à chaque instant. Par conséquent, les algorithmes d'agrégation experts peuvent être utiles pour sélectionner au cours de l'exécution le meilleur algorithme pour une situation spécifique. Les algorithmes d'agrégation, comme Exp4 datant de 2002, n'ont jamais été utilisés pour l'apprentissage de l'OSA, et nous montrons qu'ils semblent empiriquement sous-efficaces lorsqu'ils sont appliqués à des problèmes stochastiques simples. Dans cet article, nous présentons une variante améliorée, appelée Aggregator. Pour les problèmes d'AOS synthétiques modélisés sous forme de problèmes de Bandit Multi-Armed Bandit (MAB), les résultats de simulation sont présentés pour démontrer son efficacité empirique. Nous combinons des algorithmes classiques, tels que l'échantillonnage Thompson, les algorithmes Upper-Confidence Bounds (UCB et variantes) et Bayesian ou Kullback-Leibler UCB. Notre algorithme offre de bonnes performances par rapport aux algorithmes de pointe (Exp4, CORRAL ou LearnExp), et apparaît comme une approche robuste pour sélectionner en cours d'exécution le meilleur algorithme pour n'importe quel problème stochastique MAB, étant plus réaliste aux paramètres radio du monde réel que n'importe quelle approche basée sur le paramétrage manuel.
Type de document :
Communication dans un congrès
IEEE WCNC - IEEE Wireless Communications and Networking Conference, Apr 2018, Barcelona, Spain. 〈http://wcnc2018.ieee-wcnc.org/〉
Liste complète des métadonnées

Littérature citée [20 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01705292
Contributeur : Lilian Besson <>
Soumis le : vendredi 9 février 2018 - 11:51:18
Dernière modification le : vendredi 16 février 2018 - 09:40:27

Fichier

 Accès restreint
Fichier visible le : 2018-05-09

Connectez-vous pour demander l'accès au fichier

Identifiants

  • HAL Id : hal-01705292, version 1

Citation

Lilian Besson, Emilie Kaufmann, Christophe Moy. Aggregation of Multi-Armed Bandits Learning Algorithms for Opportunistic Spectrum Access. IEEE WCNC - IEEE Wireless Communications and Networking Conference, Apr 2018, Barcelona, Spain. 〈http://wcnc2018.ieee-wcnc.org/〉. 〈hal-01705292〉

Partager

Métriques

Consultations de la notice

120