SGD : Analyse générale et amélioration des taux.

Auteurs
  • GOWER Robert
  • LOIZOU Nicolas
  • QIAN Xun
  • SAILANBAYEV Alibek
  • SHULGIN Egor
  • RICHTARIK Peter
Date de publication
2019
Type de publication
Article de conférence
Résumé Nous proposons un théorème général mais simple décrivant la convergence du SGD sous le paradigme de l'échantillonnage arbitraire. Notre théorème décrit la convergence d'un ensemble infini de variantes de SGD, chacune d'entre elles étant associée à une loi de probabilité spécifique régissant la règle de sélection des données utilisée pour former les minibatchs. C'est la première fois qu'une telle analyse est réalisée, et la plupart de nos variantes de SGD n'ont jamais été explicitement considérées dans la littérature auparavant. Notre analyse s'appuie sur la notion récemment introduite de régularité attendue et ne repose pas sur une limite uniforme de la variance des gradients stochastiques. En spécialisant notre théorème à différentes stratégies de mini-batching, telles que l'échantillonnage avec remplacement et l'échantillonnage indépendant, nous obtenons des expressions exactes pour le stepsize en fonction de la taille du mini-batch. Nous pouvons ainsi déterminer la taille du mini-lot qui optimise la complexité totale et montrer explicitement que la taille optimale du mini-lot augmente avec la variance du gradient stochastique évalué au minimum. Pour une variance nulle, la taille optimale du mini-lot est de un. De plus, nous prouvons des règles de changement de pas qui décrivent quand on doit passer d'un régime de pas constant à un régime de pas décroissant.
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr