Étiquetage morphosyntaxique de langues non dotées à partir de ressources pour une langue étymologiquement proche - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2013

Étiquetage morphosyntaxique de langues non dotées à partir de ressources pour une langue étymologiquement proche

Résumé

We introduce a generic approach for transferring part-of-speech annotations from a resourced language to a non-resourced but etymologically close language. We do not rely on the existence of any parallel corpora or any linguistic knowledge for the non-resourced language (no lexicons, no annotated corpora). Our approach only makes use of cognate pairs that are automatically induced in an unsupervised way, based on character-based statistical machine translation and on a morphosyntactic lexicon for the resourced language. Frequent and short words are treated differently, as we tag them directly based on a cross-language similarity assessment of immediate morphosyntactic contexts. Using German as a resourced language, we evaluate our approach on Dutch --- in fact a resourced language --- and on Palatine German. We reach tagging accuracies of 67.2% on Dutch and 60.7% on Palatine German.
Nous présentons une approche générique du transfert d'annotations morphosyntaxiques d'une langue dotée vers une langue non dotée étymologiquement proche. Nous ne présupposons aucun corpus parallèle et aucune connaissance préalable de la langue non dotée (ni lexique, ni corpus annoté). Notre approche repose uniquement sur des paires de cognats obtenues par apprentissage non-supervisé selon le paradigme de la traduction automatique statistique à base de caractères, et sur un dictionnaire morphosyntaxique de la langue dotée. Pour les mots fréquents et courts, nous préférons assigner les étiquettes directement aux mots de la langue non dotée en fonction de mesures de similarité inter-langues du contexte morphosyntaxique immédiat. Partant de l'allemand comme langue dotée, nous évaluons notre approche sur le néerlandais, qui est en réalité dotée, et le palatin. Nous obtenons une précision d'étiquetage de 67,2\% pour le néerlandais et de 60,7\% pour le palatin.
Fichier principal
Vignette du fichier
talare13.pdf (140.17 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00838569 , version 1 (26-06-2013)

Identifiants

  • HAL Id : hal-00838569 , version 1

Citer

Yves Scherrer, Benoît Sagot. Étiquetage morphosyntaxique de langues non dotées à partir de ressources pour une langue étymologiquement proche. Atelier TALARE, TALN 2013, ATALA, Jun 2013, Les Sables d'Olonne, France. ⟨hal-00838569⟩
228 Consultations
295 Téléchargements

Partager

Gmail Facebook X LinkedIn More