Vers un treebank du français parlé

Résumé : Nous présentons les premiers résultats d'un corpus arboré pour le français parlé. Il a été réalisé dans le cadre du projet ANR Etape (resp. G. Gravier) en 2011 et 2012. Contrairement à d'autres langues comme l'anglais (voir le Switchboard treebank de (Meteer, 1995)), il n'existe pas de grand corpus oral du français annoté et validé pour les constituants et les fonctions syntaxiques. Nous souhaitons construire une ressource comparable, qui serait une extension naturelle du Corpus arboré de Paris 7 (FTB : (Abeillé et al., 2003)) basé sur des textes du journal Le Monde. Nous serons ainsi en mesure de comparer, avec des annotations comparables, l'écrit et l'oral. Les premiers résultats, qui consistent à réutiliser l'analyseur de (Petrov et al., 2006) entraîné sur l'écrit, avec une phase de correction manuelle, sont encourageants.
Document type :
Conference papers
Complete list of metadatas

https://hal.inria.fr/hal-00936490
Contributor : Benoit Crabbe <>
Submitted on : Sunday, January 26, 2014 - 3:33:54 PM
Last modification on : Friday, January 4, 2019 - 5:33:34 PM

Identifiers

  • HAL Id : hal-00936490, version 1

Collections

Citation

Anne Abeillé, Benoît Crabbe. Vers un treebank du français parlé. TALN 2013 - 20ème conférence du Traitement Automatique du Langage Naturel, Jun 2013, Sables d'Olonne, France. ⟨hal-00936490⟩

Share

Metrics

Record views

192