Unsupervized Word Segmentation: the case for Mandarin Chinese

Pierre Magistry 1 Benoît Sagot 1
1 ALPAGE - Analyse Linguistique Profonde à Grande Echelle ; Large-scale deep linguistic processing
Inria Paris-Rocquencourt, UPD7 - Université Paris Diderot - Paris 7
Résumé : Dans cet article, nous présentons un système de segmentation non supervisée que nous évaluons sur des données en mandarin. Notre travail s'inspire de l'hypothèse de Harris (1955) et suit Kempe (1999) et Tanaka-Ishii (2005) en se basant sur la reformulation de l'hypothèse en termes de variation de l'entropie de branchement. Celle-ci se révèle être un bon indicateur des frontières des unités linguistiques. Nous améliorons le système de (Jin et Tanaka-Ishii, 2006) en ajoutant une étape de normalisation qui nous permet de reformuler la façon dont sont prises les décisions de segmentation en ayant recours à la programmation dynamique. Ceci nous permet de supprimer la plupart des seuils de leur modèle tout en obtenant de meilleurs résultats, qui se placent au niveau de l'état de l'art (Wang et al., 2011) avec un système plus simple que ces derniers. Nous présentons une évaluation des résultats sur plusieurs corpus diffusés pour le Chinese Word Segmentation bake-off II (Emerson, 2005) et détaillons la borne supérieure que l'on peut espérer atteindre avec une méthode non-supervisée. Pour cela nous utilisons ZPAR en apprentissage croisé (Zhang et Clark, 2010) comme suggéré dans (Huang et Zhao, 2007; Zhao et Kit, 2008)
Type de document :
Communication dans un congrès
ACL - Annual Meeting of the Association for Computational Linguistics - 2012, Jul 2012, Jeju, South Korea. 2012
Liste complète des métadonnées

https://hal.inria.fr/hal-00701200
Contributeur : Pierre Magistry <>
Soumis le : jeudi 24 mai 2012 - 17:16:04
Dernière modification le : mercredi 12 octobre 2016 - 01:23:53

Identifiants

  • HAL Id : hal-00701200, version 1

Collections

Citation

Pierre Magistry, Benoît Sagot. Unsupervized Word Segmentation: the case for Mandarin Chinese. ACL - Annual Meeting of the Association for Computational Linguistics - 2012, Jul 2012, Jeju, South Korea. 2012. 〈hal-00701200〉

Partager

Métriques

Consultations de la notice

211