Rethinking Gauss-Newton for learning over-parameterized models

Michael Arbel; Romain Ménégaux; Pierre Wolinski

Communication Dans Un Congrès Année : 2023

Rethinking Gauss-Newton for learning over-parameterized models

Repenser Gauss-Newton pour l'apprentissage de modèles sur-paramétrés

(1) , (1) , (2, 3, 4)

1
2
3
4

Michael Arbel

Fonction : Auteur
PersonId : 1118667

Apprentissage de modèles à partir de données massives

Romain Ménégaux

Fonction : Auteur
PersonId : 1329623

Apprentissage de modèles à partir de données massives

Pierre Wolinski

Fonction : Auteur
PersonId : 177477
IdHAL : pierre-wolinski
ORCID : 0000-0003-1007-0144
IdRef : 245386297

Laboratoire de Mathématiques d'Orsay

Université Paris-Saclay

Modèles statistiques bayésiens et des valeurs extrêmes pour données structurées et de grande dimension

Résumé

This work studies the global convergence and implicit bias of Gauss Newton's (GN) when optimizing over-parameterized one-hidden layer networks in the mean-field regime. We first establish a global convergence result for GN in the continuous-time limit exhibiting a faster convergence rate compared to GD due to improved conditioning. We then perform an empirical study on a synthetic regression task to investigate the implicit bias of GN's method. While GN is consistently faster than GD in finding a global optimum, the learned model generalizes well on test data when starting from random initial weights with a small variance and using a small step size to slow down convergence. Specifically, our study shows that such a setting results in a hidden learning phenomenon, where the dynamics are able to recover features with good generalization properties despite the model having sub-optimal training and test performances due to an under-optimized linear layer. This study exhibits a trade-off between the convergence speed of GN and the generalization ability of the learned solution.

Ce travail étudie la convergence globale et le biais implicite de la méthode de Gauss-Newton (GN) lors de l'optimisation de réseaux sur-paramétrés à une couche cachée dans un régime de champ moyen. Nous établissons d'abord un résultat de convergence globale pour GN dans la limite du temps continu, qui présente un taux de convergence plus rapide que la la descente de gradient (GD) en raison d'un meilleur pré-conditionnement. Nous réalisons ensuite une étude empirique sur une tâche de régression afin d'étudier le biais implicite de la méthode GN. D'une part, GN est systématiquement plus rapide que GD pour trouver un optimum global, et d'autre part, le modèle appris généralise bien sur les données de test, lorsque l'on part de poids initiaux tirés aléatoirement avec une petite variance et on utilise un petit pas de gradient pour ralentir la convergence. Plus précisément, notre étude montre qu'une telle configuration entraîne un phénomène d'apprentissage caché, où les features cachées ont de bonnes propriétés de généralisation malgré des performances sous-optimales sur les ensembles d'apprentissage et de test, en raison d'une couche linéaire sous-optimisée. Cette étude montre l'existence d'un compromis entre la vitesse de convergence de GN et la capacité de généralisation de la solution apprise.

Mots clés

Gauss Newton method Neural netwoks Optimization

Domaines

Apprentissage [cs.LG] Optimisation et contrôle [math.OC]

Fichier principal

Arbel - 2302.02904.pdf (693.99 Ko)

Origine : Fichiers produits par l'(les) auteur(s)
Licence : CC BY - Paternité

Pierre Wolinski : Connectez-vous pour contacter le contributeur

https://hal.science/hal-04362139

Soumis le : vendredi 22 décembre 2023-15:48:14

Dernière modification le : vendredi 26 avril 2024-13:38:10

Dates et versions

hal-04362139 , version 1 (22-12-2023)

Licence

Paternité

Identifiants

HAL Id : hal-04362139 , version 1
ARXIV : 2302.02904

Citer

Michael Arbel, Romain Ménégaux, Pierre Wolinski. Rethinking Gauss-Newton for learning over-parameterized models. NeurIPS 2023 - Thirty-seventh Conference on Neural Information Processing Systems, Dec 2023, La Nouvelle-Orléans, United States. pp.1-24. ⟨hal-04362139⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UGA CNRS INRIA INSMI LM-ORSAY LJK LJK_GI LJK_PS INRIA2 GENCI TDS-MACS LJK-GI-THOTH UNIV-PARIS-SACLAY LJK-PS-STATIFY ANR GS-MATHEMATIQUES

21 Consultations

42 Téléchargements

Rethinking Gauss-Newton for learning over-parameterized models

Repenser Gauss-Newton pour l'apprentissage de modèles sur-paramétrés

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Altmetric

Partager