Construction automatique d'une base de données étymologiques à partir du wiktionary

Résumé : Les ressources lexicales électroniques ne contiennent quasiment jamais d'informations étymologiques. De telles informations, convenablement formalisées, permettraient pourtant de développer des outils automatiques au service de la linguistique historique et comparative, ainsi que d'améliorer significati-vement le traitement automatique de langues anciennes. Nous décrivons ici le processus que nous avons mis en oeuvre pour extraire des données étymologiques à partir des notices étymologiques du wiktionary, rédigées en anglais. Nous avons ainsi produit une base multilingue de près d'un million de lexèmes et une base de plus d'un demi-million de relations étymologiques entre lexèmes.
Type de document :
Communication dans un congrès
Traitement Automatique des Langues Naturelles 2017, Jun 2017, Orléans, France. 2017, 〈http://taln2017.cnrs.fr〉
Liste complète des métadonnées

Littérature citée [8 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01584013
Contributeur : Benoît Sagot <>
Soumis le : vendredi 8 septembre 2017 - 11:16:44
Dernière modification le : samedi 9 juin 2018 - 10:30:06

Fichier

taln17etym.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01584013, version 1

Collections

Citation

Benoît Sagot. Construction automatique d'une base de données étymologiques à partir du wiktionary. Traitement Automatique des Langues Naturelles 2017, Jun 2017, Orléans, France. 2017, 〈http://taln2017.cnrs.fr〉. 〈hal-01584013〉

Partager

Métriques

Consultations de la notice

104

Téléchargements de fichiers

49