Segmentation non supervisée : le cas du mandarin

Pierre Magistry 1
1 ALPAGE - Analyse Linguistique Profonde à Grande Echelle ; Large-scale deep linguistic processing
Inria Paris-Rocquencourt, UPD7 - Université Paris Diderot - Paris 7
Résumé : Dans cet article, nous présentons un système de segmentation non supervisée que nous évaluons sur des données en mandarin. Notre travail s'inspire de l'hypothèse de Harris (1955) et suit Kempe (1999) et Tanaka-Ishii (2005) en se basant sur la reformulation de l'hypothèse en termes de variation de l'entropie de branchement. Celle-ci se révèle être un bon indicateur des frontières des unités linguistiques. Nous améliorons le système de (Jin et Tanaka-Ishii, 2006) en ajoutant une étape de normalisation qui nous permet de reformuler la façon dont sont prises les décisions de segmentation en ayant recours à la programmation dynamique. Ceci nous permet de supprimer la plupart des seuils de leur modèle tout en obtenant de meilleurs résultats, qui se placent au niveau de l'état de l'art (Wang et al., 2011) avec un système plus simple que ces derniers. Nous présentons une évaluation des résultats sur plusieurs corpus diffusés pour le Chinese Word Segmentation bake-off II (Emerson, 2005) et détaillons la borne supérieure que l'on peut espérer atteindre avec une méthode non-supervisée. Pour cela nous utilisons ZPAR en apprentissage croisé (Zhang et Clark, 2010) comme suggéré dans (Huang et Zhao, 2007; Zhao et Kit, 2008)
Type de document :
Communication dans un congrès
RECITAL - Rencontres des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues - 2012, Jun 2012, Grenoble, France. 2012
Liste complète des métadonnées

https://hal.inria.fr/hal-00701197
Contributeur : Pierre Magistry <>
Soumis le : jeudi 24 mai 2012 - 17:10:23
Dernière modification le : mercredi 12 octobre 2016 - 01:23:56

Identifiants

  • HAL Id : hal-00701197, version 1

Collections

Citation

Pierre Magistry. Segmentation non supervisée : le cas du mandarin. RECITAL - Rencontres des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues - 2012, Jun 2012, Grenoble, France. 2012. 〈hal-00701197〉

Partager

Métriques

Consultations de la notice

170