Réseaux neuronaux à résidu de momentum.

Auteurs
Date de publication
2021
Type de publication
Autre
Résumé L'entraînement de réseaux neuronaux résiduels profonds (ResNets) avec la rétropropagation a un coût de mémoire qui augmente linéairement par rapport à la profondeur du réseau. Une façon simple de contourner ce problème est d'utiliser des architectures réversibles. Dans cet article, nous proposons de modifier la règle d'avancement d'un ResNet en ajoutant un terme de momentum. Les réseaux qui en résultent, les réseaux neuronaux résiduels de momentum (MomentumNets), sont inversibles. Contrairement aux architectures inversibles précédentes, ils peuvent être utilisés pour remplacer n'importe quel bloc ResNet existant. Nous montrons que les MomentumNets peuvent être interprétés dans le régime des pas infinitésimaux comme des équations différentielles ordinaires (ODE) du second ordre et nous caractérisons exactement comment l'ajout de momentum augmente progressivement les capacités de représentation des MomentumNets. Notre analyse révèle que les MomentumNets peuvent apprendre toute cartographie linéaire jusqu'à un facteur multiplicatif, alors que les ResNets ne le peuvent pas. Dans un contexte d'apprentissage pour optimiser, où la convergence vers un point fixe est requise, nous montrons théoriquement et empiriquement que notre méthode réussit alors que les architectures inversibles existantes échouent. Nous montrons sur CIFAR et ImageNet que les MomentumNets ont la même précision que les ResNets, tout en ayant une empreinte mémoire beaucoup plus petite, et nous montrons que les MomentumNets pré-entraînés sont prometteurs pour le réglage fin des modèles.
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr