Construction automatique d'une base de données étymologiques à partir du wiktionary

Benoît Sagot

Communication Dans Un Congrès Année : 2017

Construction automatique d'une base de données étymologiques à partir du wiktionary

(1)

Benoît Sagot

Fonction : Auteur
PersonId : 1461
IdHAL : bsagot
ORCID : 0000-0002-0107-8526
IdRef : 177454229

Automatic Language Modelling and ANAlysis & Computational Humanities

Résumé

Automatic construction of an etymological database using Wiktionary. Electronic lexical resources almost never contain etymological information. The availability of such information, if properly formalised, would open up the possibility of developing automatic tools targeted towards historical and comparative linguistics, as well as significantly improving the automatic processing of ancient languages. We describe here the process we implemented for extracting etymological data from the etymological notices found in Wiktionary. We have produced a multilingual database of nearly one million lexemes and a database of more than half a million etymological relations between lexemes.

Les ressources lexicales électroniques ne contiennent quasiment jamais d'informations étymologiques. De telles informations, convenablement formalisées, permettraient pourtant de développer des outils automatiques au service de la linguistique historique et comparative, ainsi que d'améliorer significati-vement le traitement automatique de langues anciennes. Nous décrivons ici le processus que nous avons mis en oeuvre pour extraire des données étymologiques à partir des notices étymologiques du wiktionary, rédigées en anglais. Nous avons ainsi produit une base multilingue de près d'un million de lexèmes et une base de plus d'un demi-million de relations étymologiques entre lexèmes.

Mots clés

Lexical resource development etymology

Développement de ressources lexicales étymologie Wiktionary

Domaines

Informatique et langage [cs.CL]

Fichier principal

taln17etym.pdf (293.22 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Benoît Sagot : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-01584013

Soumis le : vendredi 8 septembre 2017-11:16:44

Dernière modification le : mardi 3 octobre 2023-17:18:04

Dates et versions

hal-01584013 , version 1 (08-09-2017)

Identifiants

HAL Id : hal-01584013 , version 1

Citer

Benoît Sagot. Construction automatique d'une base de données étymologiques à partir du wiktionary. Traitement Automatique des Langues Naturelles 2017, Jun 2017, Orléans, France. ⟨hal-01584013⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INRIA INRIA2 PARTHENOS ANR

168 Consultations

257 Téléchargements

Construction automatique d'une base de données étymologiques à partir du wiktionary

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager