Trouver et confondre les coupables : un processus sophistiqué de correction de lexique

Abstract : The coverage of a parser depends mostly on the quality of the underlying grammar and lexicon. The development of a lexicon both complete and accurate is an intricate and demanding task, overall when achieving a certain level of quality and coverage. We introduce an automatic process able to detect missing or incomplete entries in a lexicon, and to suggest corrections hypotheses for these entries. The detection of dubious lexical entries is tackled by two techniques relying either on a specific statistical model, or on the information provided by a part-of-speech tagger. The generation of correction hypotheses for the detected entries is achieved by studying which modifications could improve the parse rate of the sentences in which the entries occur. This process brings together various techniques based on different tools such as taggers, parsers and entropy classifiers. Applying it on the Lefff, a large-coverage morphologi- cal and syntactic French lexicon, has already allowed us to perfom noticeable improvements.
Type de document :
Communication dans un congrès
16ème conférence sur le Traitement Automatique des Langues Naturelles : TALN'09, Jun 2009, Senlis, France. 2009
Liste complète des métadonnées

https://hal.inria.fr/inria-00553257
Contributeur : Eric Villemonte de La Clergerie <>
Soumis le : jeudi 6 janvier 2011 - 21:58:39
Dernière modification le : mardi 11 octobre 2016 - 13:50:59
Document(s) archivé(s) le : jeudi 7 avril 2011 - 02:33:28

Fichier

lexfix-taln09.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00553257, version 1

Collections

Citation

Lionel Nicolas, Benoît Sagot, Miguel Molinero, Jacques Farré, Éric De La Clergerie. Trouver et confondre les coupables : un processus sophistiqué de correction de lexique. 16ème conférence sur le Traitement Automatique des Langues Naturelles : TALN'09, Jun 2009, Senlis, France. 2009. <inria-00553257>

Partager

Métriques

Consultations de
la notice

575

Téléchargements du document

98