Agrégation d'algorithmes d'apprentissage de bandits à bras multiples pour l'accès opportuniste au spectre.

Auteurs
Date de publication
2018
Type de publication
Article de conférence
Résumé Les algorithmes de bandits à bras multiples ont été récemment étudiés et évalués pour la radio cognitive (CR), en particulier dans le contexte de l'accès opportuniste au spectre (OSA). Plusieurs solutions ont été explorées sur la base de divers modèles, mais il est difficile de prédire exactement laquelle pourrait être la meilleure pour les conditions du monde réel à chaque instant. C'est pourquoi les algorithmes d'agrégation d'experts peuvent être utiles pour sélectionner en temps réel le meilleur algorithme pour une situation spécifique. Les algorithmes d'agrégation, tels que Exp4 datant de 2002, n'ont jamais été utilisés pour l'apprentissage de l'OSA, et nous montrons qu'il apparaît empiriquement sous-efficace lorsqu'il est appliqué à des problèmes stochastiques simples. Dans cet article, nous présentons une variante améliorée, appelée Aggregator. Nous présentons des résultats de simulation pour des problèmes OSA synthétiques modélisés comme des problèmes de bandits à plusieurs bras (MAB) afin de démontrer son efficacité empirique. Nous combinons des algorithmes classiques, tels que l'échantillonnage de Thompson, les algorithmes de limites supérieures de confiance (UCB et variantes), et les UCB bayésiennes ou de Kullback-Leibler. Notre algorithme offre de bonnes performances par rapport aux algorithmes de l'état de l'art (Exp4, CORRAL ou LearnExp), et apparaît comme une approche robuste pour sélectionner à la volée le meilleur algorithme pour tout problème MAB stochastique, étant plus réaliste aux paramètres radio du monde réel que toute approche basée sur le tuning.
Éditeur
IEEE
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr