SGD : Analyse générale et amélioration des taux.

Auteurs

GOWER Robert
LOIZOU Nicolas
QIAN Xun
SAILANBAYEV Alibek
SHULGIN Egor
RICHTARIK Peter

Date de publication

2019

Type de publication

Article de conférence

Résumé Nous proposons un théorème général mais simple décrivant la convergence du SGD sous le paradigme de l'échantillonnage arbitraire. Notre théorème décrit la convergence d'un ensemble infini de variantes de SGD, chacune d'entre elles étant associée à une loi de probabilité spécifique régissant la règle de sélection des données utilisée pour former les minibatchs. C'est la première fois qu'une telle analyse est réalisée, et la plupart de nos variantes de SGD n'ont jamais été explicitement considérées dans la littérature auparavant. Notre analyse s'appuie sur la notion récemment introduite de régularité attendue et ne repose pas sur une limite uniforme de la variance des gradients stochastiques. En spécialisant notre théorème à différentes stratégies de mini-batching, telles que l'échantillonnage avec remplacement et l'échantillonnage indépendant, nous obtenons des expressions exactes pour le stepsize en fonction de la taille du mini-batch. Nous pouvons ainsi déterminer la taille du mini-lot qui optimise la complexité totale et montrer explicitement que la taille optimale du mini-lot augmente avec la variance du gradient stochastique évalué au minimum. Pour une variance nulle, la taille optimale du mini-lot est de un. De plus, nous prouvons des règles de changement de pas qui décrivent quand on doit passer d'un régime de pas constant à un régime de pas décroissant.

Voir la publication

Thématiques de la publication

Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr