Construction automatique d'une base de données étymologiques à partir du wiktionary - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2017

Construction automatique d'une base de données étymologiques à partir du wiktionary

Résumé

Automatic construction of an etymological database using Wiktionary. Electronic lexical resources almost never contain etymological information. The availability of such information, if properly formalised, would open up the possibility of developing automatic tools targeted towards historical and comparative linguistics, as well as significantly improving the automatic processing of ancient languages. We describe here the process we implemented for extracting etymological data from the etymological notices found in Wiktionary. We have produced a multilingual database of nearly one million lexemes and a database of more than half a million etymological relations between lexemes.
Les ressources lexicales électroniques ne contiennent quasiment jamais d'informations étymologiques. De telles informations, convenablement formalisées, permettraient pourtant de développer des outils automatiques au service de la linguistique historique et comparative, ainsi que d'améliorer significati-vement le traitement automatique de langues anciennes. Nous décrivons ici le processus que nous avons mis en oeuvre pour extraire des données étymologiques à partir des notices étymologiques du wiktionary, rédigées en anglais. Nous avons ainsi produit une base multilingue de près d'un million de lexèmes et une base de plus d'un demi-million de relations étymologiques entre lexèmes.
Fichier principal
Vignette du fichier
taln17etym.pdf (293.22 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01584013 , version 1 (08-09-2017)

Identifiants

  • HAL Id : hal-01584013 , version 1

Citer

Benoît Sagot. Construction automatique d'une base de données étymologiques à partir du wiktionary. Traitement Automatique des Langues Naturelles 2017, Jun 2017, Orléans, France. ⟨hal-01584013⟩
168 Consultations
257 Téléchargements

Partager

Gmail Facebook X LinkedIn More