Segmentation et induction de lexique non-supervisées du mandarin

Pierre Magistry 1 Benoît Sagot 1
1 ALPAGE - Analyse Linguistique Profonde à Grande Echelle ; Large-scale deep linguistic processing
Inria Paris-Rocquencourt, UPD7 - Université Paris Diderot - Paris 7
Résumé : Pour la plupart des langues utilisant l'alphabet latin, le découpage d'un texte selon les espaces et les symboles de ponctuation est une bonne approximation d'un découpage en unités lexicales. Bien que cette approxi- mation cache de nombreuses difficultés, elles sont sans comparaison avec celles que l'on rencontre lorsque l'on veut traiter des langues qui, comme le chinois mandarin, n'utilisent pas l'espace. Un grand nombre de systèmes de segmentation ont été proposés parmi lesquels certains adoptent une approche non-supervisée motivée linguistique- ment. Cependant les méthodes d'évaluation communément utilisées ne rendent pas compte de toutes les propriétés de tels systèmes. Dans cet article, nous montrons qu'un modèle simple qui repose sur une reformulation en termes d'entropie d'une hypothèse indépendante de la langue énoncée par Harris (1955), permet de segmenter un corpus et d'en extraire un lexique. Testé sur le corpus de l'Academia Sinica, notre système permet l'induction d'une segmen- tation et d'un lexique qui ont de bonnes propriétés intrinsèques et dont les caractéristiques sont similaires à celles du lexique sous-jacent au corpus segmenté manuellement. De plus, on constate une certaine corrélation entre les résultats du modèle de segmentation et les structures syntaxiques fournies par une sous-partie arborée corpus.
Type de document :
Communication dans un congrès
TALN'2011 - Traitement Automatique des Langues Naturelles, Jun 2011, Montpellier, France. 2011
Liste complète des métadonnées

https://hal.inria.fr/inria-00605899
Contributeur : Pierre Magistry <>
Soumis le : lundi 4 juillet 2011 - 16:53:51
Dernière modification le : samedi 9 juin 2018 - 10:30:06

Identifiants

  • HAL Id : inria-00605899, version 1

Collections

Citation

Pierre Magistry, Benoît Sagot. Segmentation et induction de lexique non-supervisées du mandarin. TALN'2011 - Traitement Automatique des Langues Naturelles, Jun 2011, Montpellier, France. 2011. 〈inria-00605899〉

Partager

Métriques

Consultations de la notice

106