KERDREUX Thomas

< Retour à ILB Patrimoine
Affiliations
  • 2019 - 2021
    Département d'Informatique de l'Ecole Normale Supérieure
  • 2019 - 2020
    Ecole normale supérieure Paris
  • 2020 - 2021
    Technical University of Berlin
  • 2019 - 2020
    Apprentissage statistique et parcimonie
  • 2019 - 2020
    Sciences mathematiques de paris centre
  • 2021
  • 2020
  • Bandits linéaires sur des ensembles uniformément convexes.

    Thomas KERDREUX, Christophe ROUX, Alexandre D ASPREMONT, Sebastian POKUTTA
    2021
    Les algorithmes de bandits linéaires produisent des limites de pseudo-retour de $\tilde{\mathcal{O}}(n\sqrt{T})$ sur des ensembles d'action convexes compacts $\mathcal{K}\subset\mathbb{R}^n$ et deux types d'hypothèses structurelles conduisent à de meilleures limites de pseudo-retour. Lorsque $\mathcal{K}$ est le simplexe ou une boule $\ell_p$ avec $p\in]1,2]$, il existe des algorithmes de bandits avec des limites de pseudo-retour de $\tilde{\mathcal{O}}(\sqrt{nT})$. Ici, nous dérivons des algorithmes de bandits pour certains ensembles fortement convexes au-delà de $\ell_p$ boules qui bénéficient de limites de pseudo-regret de $\tilde{\mathcal{O}}(\sqrt{nT})$, ce qui répond à une question ouverte de [BCB12, \S 5.5.]. Il est intéressant de noter que lorsque l'ensemble d'actions est uniformément convexe mais pas nécessairement fortement convexe, nous obtenons des bornes de pseudo-regret avec une dépendance de dimension plus petite que $\mathcal{O}(\sqrt{n})$. Cependant, cela se fait au détriment de taux asymptotiques en $T$ variant entre $\tilde{\mathcal{O}}(\sqrt{T})$ et $\tilde{\mathcal{O}}(T)$.
Les affiliations sont détectées à partir des signatures des publications identifiées dans scanR. Un auteur peut donc apparaître affilié à plusieurs structures ou tutelles en fonction de ces signatures. Les dates affichées correspondent seulement aux dates des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr