SxPipe 2: architecture pour le traitement pré-syntaxique de corpus bruts

Benoît Sagot 1 Pierre Boullier 1
1 ALPAGE - Analyse Linguistique Profonde à Grande Echelle ; Large-scale deep linguistic processing
Inria Paris-Rocquencourt, UPD7 - Université Paris Diderot - Paris 7
Résumé : Cet article présente SxPipe 2, chaîne modulaire et paramétrable dont le rôle est d'appliquer à des corpus bruts une cascade de traitements de surface. Préalable nécessaire à une possible analyse syntaxique, ils peuvent également servir à préparer d'autres tâches. Développé pour le français mais également pour d'autres langues, SxPipe 2 comprend, entre autres, divers modules de reconnaissances d'entités nommées dans du texte brut, un segmenteur en phrases et en tokens, un correcteur orthographique et reconnaisseur de mots composés, ainsi qu'une architecture originale de reconnaissance de motifs non contextuels, utilisée par différentes grammaires spécialisées (nombres, constructions impersonnelles...). Nous présentons les fondements théoriques des différents modules, leur mise en œuvre pour le français et pour certains une évaluation quantitative.
Document type :
Journal articles
Complete list of metadatas

Cited literature [22 references]  Display  Hide  Download

https://hal.inria.fr/inria-00515489
Contributor : Benoît Sagot <>
Submitted on : Tuesday, September 7, 2010 - 10:34:04 AM
Last modification on : Friday, January 4, 2019 - 5:33:24 PM
Long-term archiving on : Wednesday, December 8, 2010 - 2:37:25 AM

File

TALsxpipe.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : inria-00515489, version 1

Collections

Citation

Benoît Sagot, Pierre Boullier. SxPipe 2: architecture pour le traitement pré-syntaxique de corpus bruts. Traitement Automatique des Langues, ATALA, 2008, 49 (2), pp.155-188. ⟨http://www.atala.org/IMG/pdf/TAL-2008-49-2-06-Sagot.pdf⟩. ⟨inria-00515489⟩

Share

Metrics

Record views

544

Files downloads

300