Modélisation du prétraitement des textes

Thomas Heitz

Conference Papers Year : 2006

Modélisation du prétraitement des textes

(1, 2)

1
2

Thomas Heitz

Function : Author
PersonId : 836597

Laboratoire de Recherche en Informatique

Algorithmic number theory for cryptology

Abstract

Dans cet article, nous définissons un modèle pour l'étape de prétraitement des textes dans le cadre de la fouille de textes et plus généralement de l'extraction d'informations à partir de textes. Cet article ne contient pas les détails de l'implémentation. L'objectif est d'obtenir un modèle générique de normalisation des textes bruts. La motivation de cet article est de généraliser les travaux assez confidentiels et spécialisés qui existent pour cette étape de prétraitement. Cette étape est pourtant incontournable et d'elle dépend grandement la qualité des analyses obtenues à toutes les étapes ultérieures.

Domains

Document and Text Processing

Fichier principal

heitz_JADT2006.pdf (53.17 Ko)

Slides_jadt2006.pdf (498.54 Ko)

heitz_JADT2006_poster.pdf (416.04 Ko)

Origin : Publisher files allowed on an open archive

Format : Other

Thomas Heitz : Connect in order to contact the contributor

https://inria.hal.science/inria-00119608

Submitted on : Monday, December 11, 2006-2:12:13 PM

Last modification on : Saturday, February 10, 2024-3:07:53 AM

Long-term archiving on: Tuesday, April 6, 2010-7:23:40 PM

Dates and versions

inria-00119608 , version 1 (11-12-2006)

Identifiers

HAL Id : inria-00119608 , version 1

Cite

Thomas Heitz. Modélisation du prétraitement des textes. JADT'06 (International Conference on Statistical Analysis of Textual Data), 2006, Besançon, France, pp.499-506. ⟨inria-00119608⟩

Export

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

X EC-PARIS CNRS INRIA LIX X-LIX X-DEP-INFO UMR8623 INRIA2 UNIV-PARIS-SACLAY

170 View

1289 Download

Modélisation du prétraitement des textes

Abstract

Domains

Dates and versions

Identifiers

Cite

Export

Collections

Share