Des bandits corrompus pour préserver la confidentialité locale.

Auteurs
Date de publication
2018
Type de publication
Article de conférence
Résumé Nous étudions une variante du problème du bandit multi-bras stochastique (MAB) dans lequel les récompenses sont corrompues. Dans ce cadre, motivé par la préservation de la vie privée dans les systèmes de recommandation en ligne, l'objectif est de maximiser la somme des récompenses (non observées), sur la base de l'observation de la transformation de ces récompenses par un processus de corruption stochastique dont les paramètres sont connus. Nous fournissons une limite inférieure sur le regret attendu de tout algorithme de bandit dans ce cadre corrompu. Nous concevons un algorithme fréquentiste, KLUCB-CF, et un algorithme bayésien, TS-CF, et donnons des limites supérieures à leur regret. Nous fournissons également les paramètres de corruption appropriés pour garantir un niveau souhaité de confidentialité locale et analysons l'impact de ces paramètres sur le regret. Enfin, nous présentons quelques résultats expérimentaux qui confirment notre analyse.
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr