Modélisation du prétraitement des textes

Thomas Heitz 1, 2
2 TANC - Algorithmic number theory for cryptology
LIX - Laboratoire d'informatique de l'École polytechnique [Palaiseau], Inria Saclay - Ile de France, X - École polytechnique, CNRS - Centre National de la Recherche Scientifique : UMR7161
Résumé : Dans cet article, nous définissons un modèle pour l'étape de prétraitement des textes dans le cadre de la fouille de textes et plus généralement de l'extraction d'informations à partir de textes. Cet article ne contient pas les détails de l'implémentation. L'objectif est d'obtenir un modèle générique de normalisation des textes bruts. La motivation de cet article est de généraliser les travaux assez confidentiels et spécialisés qui existent pour cette étape de prétraitement. Cette étape est pourtant incontournable et d'elle dépend grandement la qualité des analyses obtenues à toutes les étapes ultérieures.
Type de document :
Communication dans un congrès
JADT'06 (International Conference on Statistical Analysis of Textual Data), 2006, Besançon, France, 1, pp.499-506, 2006, Proceedings of JADT'06
Liste complète des métadonnées

https://hal.inria.fr/inria-00119608
Contributeur : Thomas Heitz <>
Soumis le : lundi 11 décembre 2006 - 14:12:13
Dernière modification le : jeudi 10 mai 2018 - 02:06:26
Document(s) archivé(s) le : mardi 6 avril 2010 - 19:23:40

Identifiants

  • HAL Id : inria-00119608, version 1

Collections

Citation

Thomas Heitz. Modélisation du prétraitement des textes. JADT'06 (International Conference on Statistical Analysis of Textual Data), 2006, Besançon, France, 1, pp.499-506, 2006, Proceedings of JADT'06. 〈inria-00119608〉

Partager

Métriques

Consultations de la notice

279

Téléchargements de fichiers

608