SxPipe 2: architecture pour le traitement pré-syntaxique de corpus bruts - Inria - Institut national de recherche en sciences et technologies du numérique Access content directly
Journal Articles Revue TAL : traitement automatique des langues Year : 2008

SxPipe 2: architecture pour le traitement pré-syntaxique de corpus bruts

Abstract

Cet article présente SxPipe 2, chaîne modulaire et paramétrable dont le rôle est d'appliquer à des corpus bruts une cascade de traitements de surface. Préalable nécessaire à une possible analyse syntaxique, ils peuvent également servir à préparer d'autres tâches. Développé pour le français mais également pour d'autres langues, SxPipe 2 comprend, entre autres, divers modules de reconnaissances d'entités nommées dans du texte brut, un segmenteur en phrases et en tokens, un correcteur orthographique et reconnaisseur de mots composés, ainsi qu'une architecture originale de reconnaissance de motifs non contextuels, utilisée par différentes grammaires spécialisées (nombres, constructions impersonnelles...). Nous présentons les fondements théoriques des différents modules, leur mise en œuvre pour le français et pour certains une évaluation quantitative.
Fichier principal
Vignette du fichier
TALsxpipe.pdf (1012.5 Ko) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

inria-00515489 , version 1 (07-09-2010)

Identifiers

  • HAL Id : inria-00515489 , version 1

Cite

Benoît Sagot, Pierre Boullier. SxPipe 2: architecture pour le traitement pré-syntaxique de corpus bruts. Revue TAL : traitement automatique des langues, 2008, 49 (2), pp.155-188. ⟨inria-00515489⟩
463 View
334 Download

Share

Gmail Facebook X LinkedIn More