Exploitation d'une ressource lexicale pour la construction d'un étiqueteur morphosyntaxique état-de-l'art du français

Pascal Denis 1 Benoît Sagot 1
1 ALPAGE - Analyse Linguistique Profonde à Grande Echelle ; Large-scale deep linguistic processing
Inria Paris-Rocquencourt, UPD7 - Université Paris Diderot - Paris 7
Résumé : Cet article présente MElt_fr , un étiqueteur morpho-syntaxique automatique du français. Il repose sur un modèle probabiliste séquentiel qui bénéficie d'informations issues d'un lexique exogène, à savoir le Lefff . Evalué sur le FTB, MElt_fr atteint un taux de précision de 97.75% (91.36% sur les mots inconnus) sur un jeu de 29 étiquettes. Ceci correspond à une diminution du taux d'erreur de 18% (36.1% sur les mots inconnus) par rapport au même modèle sans couplage avec le Lefff . Nous étudions plus en détail la contribution de cette ressource, au travers de deux séries d'expériences. Celles-ci font apparaître en particulier que la contribution des traits issus du Lefff est de permettre une meilleure couverture, ainsi qu'une modélisation plus fine du contexte droit des mots.
Type de document :
Communication dans un congrès
Traitement Automatique des Langues Naturelles : TALN 2010, Jul 2010, Montréal, Canada. 2010
Liste complète des métadonnées

Littérature citée [12 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/inria-00521231
Contributeur : Benoît Sagot <>
Soumis le : dimanche 26 septembre 2010 - 22:11:18
Dernière modification le : samedi 9 juin 2018 - 10:30:06
Document(s) archivé(s) le : jeudi 25 octobre 2012 - 16:01:27

Fichier

taln10melt.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00521231, version 1

Collections

Citation

Pascal Denis, Benoît Sagot. Exploitation d'une ressource lexicale pour la construction d'un étiqueteur morphosyntaxique état-de-l'art du français. Traitement Automatique des Langues Naturelles : TALN 2010, Jul 2010, Montréal, Canada. 2010. 〈inria-00521231〉

Partager

Métriques

Consultations de la notice

326

Téléchargements de fichiers

247