Normalisation de textes par analogie: le cas des mots inconnus

Résumé : Dans cet article, nous proposons et évaluons un système permettant d'améliorer la qualité d'un texte bruité notamment par des erreurs orthographiques. Ce système a vocation à être intégré à une architecture complète d'extraction d'information, et a pour objectif d'améliorer les résultats d'une telle tâche. Pour chaque mot qui est inconnu d'un lexique de référence et qui n'est ni une entité nommée ni une création lexicale, notre système cherche à proposer une ou plusieurs normalisations possibles (une normalisation valide étant un mot connu dont le lemme est le même que celui de la forme orthographiquement correcte). Pour ce faire, ce système utilise des techniques de correction automatique lexicale par règle qui reposent sur un système d'induction de règles par analogie.
Type de document :
Communication dans un congrès
TALN - Traitement Automatique du Langage Naturel, Jul 2014, Marseille, France. pp.137-148, 2014
Liste complète des métadonnées

Littérature citée [24 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01019998
Contributeur : Marion Baranes <>
Soumis le : lundi 7 juillet 2014 - 15:45:44
Dernière modification le : samedi 9 juin 2018 - 10:30:06
Document(s) archivé(s) le : lundi 12 octobre 2015 - 11:35:45

Fichier

Paper_O-E.3.pdf
Fichiers éditeurs autorisés sur une archive ouverte

Identifiants

  • HAL Id : hal-01019998, version 1

Collections

Citation

Marion Baranes, Benoît Sagot. Normalisation de textes par analogie: le cas des mots inconnus. TALN - Traitement Automatique du Langage Naturel, Jul 2014, Marseille, France. pp.137-148, 2014. 〈hal-01019998〉

Partager

Métriques

Consultations de la notice

545

Téléchargements de fichiers

264