Étiquetage morphosyntaxique de langues non dotées à partir de ressources pour une langue étymologiquement proche

Yves Scherrer; Benoît Sagot

Communication Dans Un Congrès Année : 2013

Étiquetage morphosyntaxique de langues non dotées à partir de ressources pour une langue étymologiquement proche

(1) , (1)

Yves Scherrer

Fonction : Auteur
PersonId : 942930

Analyse Linguistique Profonde à Grande Echelle ; Large-scale deep linguistic processing

Benoît Sagot

Fonction : Auteur
PersonId : 1461
IdHAL : bsagot
ORCID : 0000-0002-0107-8526
IdRef : 177454229

Analyse Linguistique Profonde à Grande Echelle ; Large-scale deep linguistic processing

Résumé

We introduce a generic approach for transferring part-of-speech annotations from a resourced language to a non-resourced but etymologically close language. We do not rely on the existence of any parallel corpora or any linguistic knowledge for the non-resourced language (no lexicons, no annotated corpora). Our approach only makes use of cognate pairs that are automatically induced in an unsupervised way, based on character-based statistical machine translation and on a morphosyntactic lexicon for the resourced language. Frequent and short words are treated differently, as we tag them directly based on a cross-language similarity assessment of immediate morphosyntactic contexts. Using German as a resourced language, we evaluate our approach on Dutch --- in fact a resourced language --- and on Palatine German. We reach tagging accuracies of 67.2% on Dutch and 60.7% on Palatine German.

Nous présentons une approche générique du transfert d'annotations morphosyntaxiques d'une langue dotée vers une langue non dotée étymologiquement proche. Nous ne présupposons aucun corpus parallèle et aucune connaissance préalable de la langue non dotée (ni lexique, ni corpus annoté). Notre approche repose uniquement sur des paires de cognats obtenues par apprentissage non-supervisé selon le paradigme de la traduction automatique statistique à base de caractères, et sur un dictionnaire morphosyntaxique de la langue dotée. Pour les mots fréquents et courts, nous préférons assigner les étiquettes directement aux mots de la langue non dotée en fonction de mesures de similarité inter-langues du contexte morphosyntaxique immédiat. Partant de l'allemand comme langue dotée, nous évaluons notre approche sur le néerlandais, qui est en réalité dotée, et le palatin. Nous obtenons une précision d'étiquetage de 67,2\% pour le néerlandais et de 60,7\% pour le palatin.

Mots clés

part-of-speech tagging etymologically close languages non-resourced languages

Domaines

Informatique et langage [cs.CL] Linguistique

Fichier principal

talare13.pdf (140.17 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Yves Scherrer : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-00838569

Soumis le : mercredi 26 juin 2013-09:15:16

Dernière modification le : mercredi 2 novembre 2022-11:23:43

Archivage à long terme le : mercredi 5 avril 2017-04:31:21

Dates et versions

hal-00838569 , version 1 (26-06-2013)

Identifiants

HAL Id : hal-00838569 , version 1

Citer

Yves Scherrer, Benoît Sagot. Étiquetage morphosyntaxique de langues non dotées à partir de ressources pour une langue étymologiquement proche. Atelier TALARE, TALN 2013, ATALA, Jun 2013, Les Sables d'Olonne, France. ⟨hal-00838569⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-PARIS7 INRIA INRIA2 CAMPUS-AAR AAI

228 Consultations

295 Téléchargements

Étiquetage morphosyntaxique de langues non dotées à partir de ressources pour une langue étymologiquement proche

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager