Rethinking Gauss-Newton for learning over-parameterized models - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2023

Rethinking Gauss-Newton for learning over-parameterized models

Repenser Gauss-Newton pour l'apprentissage de modèles sur-paramétrés

Résumé

This work studies the global convergence and implicit bias of Gauss Newton's (GN) when optimizing over-parameterized one-hidden layer networks in the mean-field regime. We first establish a global convergence result for GN in the continuous-time limit exhibiting a faster convergence rate compared to GD due to improved conditioning. We then perform an empirical study on a synthetic regression task to investigate the implicit bias of GN's method. While GN is consistently faster than GD in finding a global optimum, the learned model generalizes well on test data when starting from random initial weights with a small variance and using a small step size to slow down convergence. Specifically, our study shows that such a setting results in a hidden learning phenomenon, where the dynamics are able to recover features with good generalization properties despite the model having sub-optimal training and test performances due to an under-optimized linear layer. This study exhibits a trade-off between the convergence speed of GN and the generalization ability of the learned solution.
Ce travail étudie la convergence globale et le biais implicite de la méthode de Gauss-Newton (GN) lors de l'optimisation de réseaux sur-paramétrés à une couche cachée dans un régime de champ moyen. Nous établissons d'abord un résultat de convergence globale pour GN dans la limite du temps continu, qui présente un taux de convergence plus rapide que la la descente de gradient (GD) en raison d'un meilleur pré-conditionnement. Nous réalisons ensuite une étude empirique sur une tâche de régression afin d'étudier le biais implicite de la méthode GN. D'une part, GN est systématiquement plus rapide que GD pour trouver un optimum global, et d'autre part, le modèle appris généralise bien sur les données de test, lorsque l'on part de poids initiaux tirés aléatoirement avec une petite variance et on utilise un petit pas de gradient pour ralentir la convergence. Plus précisément, notre étude montre qu'une telle configuration entraîne un phénomène d'apprentissage caché, où les features cachées ont de bonnes propriétés de généralisation malgré des performances sous-optimales sur les ensembles d'apprentissage et de test, en raison d'une couche linéaire sous-optimisée. Cette étude montre l'existence d'un compromis entre la vitesse de convergence de GN et la capacité de généralisation de la solution apprise.
Fichier principal
Vignette du fichier
Arbel - 2302.02904.pdf (693.99 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Licence : CC BY - Paternité

Dates et versions

hal-04362139 , version 1 (22-12-2023)

Licence

Paternité

Identifiants

Citer

Michael Arbel, Romain Ménégaux, Pierre Wolinski. Rethinking Gauss-Newton for learning over-parameterized models. NeurIPS 2023 - Thirty-seventh Conference on Neural Information Processing Systems, Dec 2023, La Nouvelle-Orléans, United States. pp.1-24. ⟨hal-04362139⟩
21 Consultations
42 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More