Construction d'un wordnet libre du français à partir de ressources multilingues

Résumé : Cet article décrit la construction d'un Wordnet Libre du Français (WOLF) à partir du Princeton WordNet et de diverses ressources multilingues. Les lexèmes polysémiques ont été traités au moyen d'une approche reposant sur l'alignement en mots d'un corpus parallèle en cinq langues. Le lexique multilingue extrait a été désambiguïsé sémantiquement à l'aide des wordnets des langues concernées. Par ailleurs, une approche bilingue a été suffisante pour construire de nouvelles entrées à partir des lexèmes monosémiques. Nous avons pour cela extrait des lexiques bilingues à partir de Wikipédia et de thésaurus. Le wordnet obtenu a été évalué par rapport au wordnet français issu du projet EuroWordNet. Les résultats sont encourageants, et des applications sont d'ores et déjà envisagées.
Document type :
Conference papers
Complete list of metadatas

Cited literature [8 references]  Display  Hide  Download

https://hal.inria.fr/inria-00614707
Contributor : Benoît Sagot <>
Submitted on : Monday, August 15, 2011 - 11:28:47 AM
Last modification on : Thursday, August 29, 2019 - 2:24:09 PM
Long-term archiving on : Monday, November 12, 2012 - 3:25:44 PM

File

TALN08.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : inria-00614707, version 1

Collections

Citation

Benoît Sagot, Darja Fišer. Construction d'un wordnet libre du français à partir de ressources multilingues. TALN 2008 -Traitement Automatique des Langues Naturelles, Jun 2008, Avignon, France. ⟨inria-00614707⟩

Share

Metrics

Record views

444

Files downloads

957