Quand être absent de mBERT n'est que le commencement : Gérer de nouvelles langues à l’aide de modèles de langues multilingues

Benjamin Muller; Antonios Anastasopoulos; Benoît Sagot; Djamé Seddah

Communication Dans Un Congrès Année : 2022

When Being Unseen from mBERT is just the Beginning : Handling New Languages With Multilingual Language Models

Quand être absent de mBERT n'est que le commencement : Gérer de nouvelles langues à l’aide de modèles de langues multilingues

(1) , (2) , (1) , (1)

1
2

Benjamin Muller

Fonction : Auteur
PersonId : 1072747
IdRef : 26738016X

Automatic Language Modelling and ANAlysis & Computational Humanities

Antonios Anastasopoulos

Fonction : Auteur
PersonId : 1144143

George Mason University [Fairfax]

Benoît Sagot

Fonction : Auteur
PersonId : 1461
IdHAL : bsagot
ORCID : 0000-0002-0107-8526
IdRef : 177454229

Automatic Language Modelling and ANAlysis & Computational Humanities

Djamé Seddah

Fonction : Auteur
PersonId : 11545
IdHAL : djameseddah
IdRef : 086185136

Automatic Language Modelling and ANAlysis & Computational Humanities

Résumé

Transfer learning based on pretraining language models on a large amount of raw data has become a new norm to reach state-of-the-art performance in NLP. Still, it remains unclear how this approach should be applied for unseen languages that are not covered by any available large-scale multilingual language model and for which only a small amount of raw data is generally available. In this work, by comparing multilingual and monolingual models, we show that such models behave in multiple ways on unseen languages. Some languages greatly benefit from transfer learning and behave similarly to closely related high resource languages whereas others apparently do not. Focusing on the latter, we show that this failure to transfer is largely related to the impact of the script used to write such languages. We show that transliterating those languages significantly improves the potential of large-scale multilingual language models on downstream tasks. This result provides a promising direction towards making these massively multilingual models useful for a new set of unseen languages.

L’apprentissage par transfert basé sur le pré-entraînement de modèles de langue sur une grande quantité de données brutes est devenu la norme pour obtenir des performances état de l’art en TAL. Cependant, la façon dont cette approche devrait être appliquée pour des langues inconnues, qui ne sont couvertes par aucun modèle de langue multilingue à grande échelle et pour lesquelles seule une petite quantité de données brutes est le plus souvent disponible, n’est pas claire. Dans ce travail, en comparant des modèles multilingues et monolingues, nous montrons que de tels modèles se comportent de multiples façons sur des langues inconnues. Certaines langues bénéficient grandement de l’apprentissage par transfert et se comportent de manière similaire à des langues proches riches en ressource, alors que ce n’est manifestement pas le cas pour d’autres. En nous concentrant sur ces dernières, nous montrons dans ce travail que cet échec du transfert est largement lié à l’impact du script que ces langues utilisent. Nous montrons que la translittération de ces langues améliore considérablement le potentiel des larges modèles de langue neuronaux multilingues pour des tâches en aval. Ce résultat indique une piste prometteuse pour rendre ces modèles massivement multilingues utiles pour de nouveaux ensembles de langues absentes des données d’entraînement.

Mots clés

Modèles de langues multilingues neuronaux Langues peu dotées Translittération

Domaines

Informatique et langage [cs.CL]

5937.pdf (45.09 Ko)

Origine : Fichiers éditeurs autorisés sur une archive ouverte

Yannick Parmentier : Connectez-vous pour contacter le contributeur

https://hal.science/hal-03701503

Soumis le : vendredi 24 juin 2022-16:42:07

Dernière modification le : mardi 3 octobre 2023-17:18:04

Dates et versions

hal-03701503 , version 1 (24-06-2022)

Identifiants

HAL Id : hal-03701503 , version 1

Citer

Benjamin Muller, Antonios Anastasopoulos, Benoît Sagot, Djamé Seddah. Quand être absent de mBERT n'est que le commencement : Gérer de nouvelles langues à l’aide de modèles de langues multilingues. TALN 2022 - 29° conférence sur le Traitement Automatique des Langues Naturelles, Jun 2022, Avignon, France. pp.450-451. ⟨hal-03701503⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INRIA INRIA2 TALN-RECITAL TALN-RECITAL2022

77 Consultations

27 Téléchargements

When Being Unseen from mBERT is just the Beginning : Handling New Languages With Multilingual Language Models

Quand être absent de mBERT n'est que le commencement : Gérer de nouvelles langues à l’aide de modèles de langues multilingues

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager