Vers un treebank du français parlé

Résumé : Nous présentons les premiers résultats d'un corpus arboré pour le français parlé. Il a été réalisé dans le cadre du projet ANR Etape (resp. G. Gravier) en 2011 et 2012. Contrairement à d'autres langues comme l'anglais (voir le Switchboard treebank de (Meteer, 1995)), il n'existe pas de grand corpus oral du français annoté et validé pour les constituants et les fonctions syntaxiques. Nous souhaitons construire une ressource comparable, qui serait une extension naturelle du Corpus arboré de Paris 7 (FTB : (Abeillé et al., 2003)) basé sur des textes du journal Le Monde. Nous serons ainsi en mesure de comparer, avec des annotations comparables, l'écrit et l'oral. Les premiers résultats, qui consistent à réutiliser l'analyseur de (Petrov et al., 2006) entraîné sur l'écrit, avec une phase de correction manuelle, sont encourageants.
Type de document :
Communication dans un congrès
TALN 2013 - 20ème conférence du Traitement Automatique du Langage Naturel, Jun 2013, Sables d'Olonne, France. 2013, 〈http://www.taln2013.org/actes/www/volumes/taln-recital2013_volume1.pdf〉
Liste complète des métadonnées

https://hal.inria.fr/hal-00936490
Contributeur : Benoit Crabbe <>
Soumis le : dimanche 26 janvier 2014 - 15:33:54
Dernière modification le : jeudi 15 novembre 2018 - 20:27:40

Identifiants

  • HAL Id : hal-00936490, version 1

Collections

Citation

Anne Abeillé, Benoît Crabbe. Vers un treebank du français parlé. TALN 2013 - 20ème conférence du Traitement Automatique du Langage Naturel, Jun 2013, Sables d'Olonne, France. 2013, 〈http://www.taln2013.org/actes/www/volumes/taln-recital2013_volume1.pdf〉. 〈hal-00936490〉

Partager

Métriques

Consultations de la notice

167