Géométrie de l'auto-attention en classification : quand la géométrie remplace l'attention - Inria - Institut national de recherche en sciences et technologies du numérique Access content directly
Conference Papers Year : 2023

Géométrie de l'auto-attention en classification : quand la géométrie remplace l'attention

Abstract

Plusieurs études ont mis en évidence l'anisotropie des plongements issus d'un modèle BERT au sein d'un énoncé, c'est-à-dire leur concentration dans une direction donnée, notamment dans une tâche de classification. Dans cet article, nous cherchons à mieux comprendre ce phénomène et comment cette convergence se construit en analysant finement les propriétés géométriques des plongements, des clés et des valeurs dans une couche d'auto-attention. Nous montrons que la direction vers laquelle les plongements s'alignent caractérise la classe d'appartenance de l'énoncé. Nous étudions ensuite le fonctionnement intrinsèque de la couche d'auto-attention et les mécanismes en jeu entre clés et valeurs pour garantir la construction d'une représentation anisotrope. Cette construction se fait de manière progressive lorsque plusieurs couches sont empilés. Elle s'avère également robuste à des contraintes externes sur la distribution des poids d'attention, compensées par le modèle en jouant sur les valeurs et les clés.
Fichier principal
Vignette du fichier
461872.pdf (308.79 Ko) Télécharger le fichier
Origin : Publisher files allowed on an open archive

Dates and versions

hal-04130184 , version 2 (20-06-2023)

Licence

Attribution

Identifiers

  • HAL Id : hal-04130184 , version 2

Cite

Loïc Fosse, Duc Hau Nguyen, Pascale Sébillot, Guillaume Gravier. Géométrie de l'auto-attention en classification : quand la géométrie remplace l'attention. CORIA-TALN 2023 - 18e Conférence en Recherche d'Information et Applications -- 16e Rencontres Jeunes Chercheurs en RI -- 30e Conférence sur le Traitement Automatique des Langues Naturelles -- 25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues, Jun 2023, Paris, France. pp.137-150. ⟨hal-04130184⟩
69 View
51 Download

Share

Gmail Facebook X LinkedIn More