Extension dynamique de lexiques morphologiques pour le français à partir d'un flux textuel - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2013

Extension dynamique de lexiques morphologiques pour le français à partir d'un flux textuel

Résumé

Lexical incompleteness is a recurring problem when dealing with natural language and its variability. It seems indeed necessary today to regularly validate and extend lexica used by tools processing large amounts of textual data. This is even more true when processing real-time text flows. In this context, our paper introduces techniques aimed at addressing words unknown to a lexicon. We first study neology (from a theoretic and corpus-based point of view) and describe the modules we have developed for detecting them and inferring information about them (lemma, category, inflectional class). We show that we are able, using various modules for analyzing derived and compound neologisms, to generate lexical entries candidates in real-time and with a good precision.
L'incomplétude lexicale est un problème récurrent lorsque l'on cherche à traiter le langage naturel dans sa variabilité. Effectivement, il semble aujourd'hui nécessaire de vérifier et compléter régulièrement les lexiques utilisés par les applications qui analysent d'importants volumes de textes. Ceci est plus particulièrement vrai pour les flux textuels en temps réel. Dans ce contexte, notre article présente des solutions dédiées au traitement des mots inconnus d'un lexique. Nous faisons une étude des néologismes (linguistique et sur corpus) et détaillons la mise en œuvre de modules d'analyse dédiés à leur détection et à l'inférence d'informations (forme de citation, catégorie et classe flexionnelle) à leur sujet. Nous y montrons que nous sommes en mesure, grâce notamment à des modules d'analyse des dérivés et des composés, de proposer en temps réel des entrées pour ajout aux lexiques avec une bonne précision.
Fichier principal
Vignette du fichier
taln13edylex.pdf (191.63 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00832078 , version 1 (10-06-2013)

Identifiants

  • HAL Id : hal-00832078 , version 1

Citer

Benoît Sagot, Damien Nouvel, Virginie Mouilleron, Marion Baranes. Extension dynamique de lexiques morphologiques pour le français à partir d'un flux textuel. TALN - Traitement Automatique du Langage Naturel, Jun 2013, Les sables d'Olonne, France. pp.407-420. ⟨hal-00832078⟩
227 Consultations
283 Téléchargements

Partager

Gmail Facebook X LinkedIn More