Vers un treebank du français parlé - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2013

Vers un treebank du français parlé

Résumé

Nous présentons les premiers résultats d'un corpus arboré pour le français parlé. Il a été réalisé dans le cadre du projet ANR Etape (resp. G. Gravier) en 2011 et 2012. Contrairement à d'autres langues comme l'anglais (voir le Switchboard treebank de (Meteer, 1995)), il n'existe pas de grand corpus oral du français annoté et validé pour les constituants et les fonctions syntaxiques. Nous souhaitons construire une ressource comparable, qui serait une extension naturelle du Corpus arboré de Paris 7 (FTB : (Abeillé et al., 2003)) basé sur des textes du journal Le Monde. Nous serons ainsi en mesure de comparer, avec des annotations comparables, l'écrit et l'oral. Les premiers résultats, qui consistent à réutiliser l'analyseur de (Petrov et al., 2006) entraîné sur l'écrit, avec une phase de correction manuelle, sont encourageants.
Fichier non déposé

Dates et versions

hal-00936490 , version 1 (26-01-2014)

Identifiants

  • HAL Id : hal-00936490 , version 1

Citer

Anne Abeillé, Benoît Crabbe. Vers un treebank du français parlé. TALN 2013 - 20ème conférence du Traitement Automatique du Langage Naturel, Jun 2013, Sables d'Olonne, France. ⟨hal-00936490⟩
80 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More