Adapting WSJ-trained parsers to the British National Corpus using in-domain self-training

Abstract : We introduce a set of 1,000 gold standard parse trees for the British National Corpus (BNC) and perform a series of self-training experiments with Charniak and Johnson's reranking parser and BNC sentences. We show that retraining this parser with a combination of one million BNC parse trees (produced by the same parser) and the original WSJ training data yields improvements of 0.4% on WSJ Section 23 and 1.7% on the new BNC gold standard set.
Type de document :
Communication dans un congrès
Proceedings of the 10th International Conference on Parsing Technologies : IWPT '07, 2007, Prague, Czech Republic. pp.33--35, 2007
Liste complète des métadonnées

Littérature citée [12 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/inria-00545429
Contributeur : Brigitte Briot <>
Soumis le : vendredi 10 décembre 2010 - 10:58:15
Dernière modification le : vendredi 12 janvier 2018 - 15:34:06
Document(s) archivé(s) le : vendredi 11 mars 2011 - 03:16:18

Fichier

jfoster_et_al_07.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00545429, version 1

Collections

Citation

Jennifer Foster, Joachim Wagner, Djamé Seddah, Josef Van Genabith. Adapting WSJ-trained parsers to the British National Corpus using in-domain self-training. Proceedings of the 10th International Conference on Parsing Technologies : IWPT '07, 2007, Prague, Czech Republic. pp.33--35, 2007. 〈inria-00545429〉

Partager

Métriques

Consultations de la notice

95

Téléchargements de fichiers

88