Skip to Main content Skip to Navigation
Conference papers

Modélisation du prétraitement des textes

Thomas Heitz 1, 2
2 TANC - Algorithmic number theory for cryptology
Inria Saclay - Ile de France, LIX - Laboratoire d'informatique de l'École polytechnique [Palaiseau]
Résumé : Dans cet article, nous définissons un modèle pour l'étape de prétraitement des textes dans le cadre de la fouille de textes et plus généralement de l'extraction d'informations à partir de textes. Cet article ne contient pas les détails de l'implémentation. L'objectif est d'obtenir un modèle générique de normalisation des textes bruts. La motivation de cet article est de généraliser les travaux assez confidentiels et spécialisés qui existent pour cette étape de prétraitement. Cette étape est pourtant incontournable et d'elle dépend grandement la qualité des analyses obtenues à toutes les étapes ultérieures.
Document type :
Conference papers
Complete list of metadata

https://hal.inria.fr/inria-00119608
Contributor : Thomas Heitz <>
Submitted on : Monday, December 11, 2006 - 2:12:13 PM
Last modification on : Wednesday, September 16, 2020 - 4:52:19 PM
Long-term archiving on: : Tuesday, April 6, 2010 - 7:23:40 PM

Identifiers

  • HAL Id : inria-00119608, version 1

Collections

Citation

Thomas Heitz. Modélisation du prétraitement des textes. JADT'06 (International Conference on Statistical Analysis of Textual Data), 2006, Besançon, France, pp.499-506. ⟨inria-00119608⟩

Share

Metrics

Record views

337

Files downloads

1281