Segmentation et induction de lexique non-supervisées du mandarin

Pierre Magistry; Benoît Sagot

Communication Dans Un Congrès Année : 2011

Segmentation et induction de lexique non-supervisées du mandarin

(1) , (1)

Pierre Magistry

Fonction : Auteur
PersonId : 12984
IdHAL : pierre-magistry
IdRef : 177448148

Analyse Linguistique Profonde à Grande Echelle ; Large-scale deep linguistic processing

Benoît Sagot

Fonction : Auteur
PersonId : 1461
IdHAL : bsagot
ORCID : 0000-0002-0107-8526
IdRef : 177454229

Analyse Linguistique Profonde à Grande Echelle ; Large-scale deep linguistic processing

Résumé

For most languages using the Latin alphabet, tokenizing a text on spaces and punctuation marks is a good approximation of a segmentation into lexical units. Although this approximation hides many difficulties, they do not compare with those arising when dealing with languages that do not use spaces, such as Mandarin Chinese. Many segmentation systems have been proposed, some of them use linguistitically motivated unsuper- vized algorithms. However, standard evaluation practices fail to account for some properties of such systems. In this paper, we show that a simple model, based on an entropy-based reformulation of a language-independent hy- pothesis put forward by Harris (1955), allows for segmenting a corpus and extracting a lexicon from the results. Tested on the Academia Sinica Corpus, our system allows for inducing a segmentation and a lexicon with good in- trinsic properties and whose characteristics are similar to those of the lexicon underlying the manually-segmented corpus. Moreover, the results of the segmentation model correlate with the syntactic structures provided by the syntactically annotated subpart of the corpus.

Pour la plupart des langues utilisant l'alphabet latin, le découpage d'un texte selon les espaces et les symboles de ponctuation est une bonne approximation d'un découpage en unités lexicales. Bien que cette approxi- mation cache de nombreuses difficultés, elles sont sans comparaison avec celles que l'on rencontre lorsque l'on veut traiter des langues qui, comme le chinois mandarin, n'utilisent pas l'espace. Un grand nombre de systèmes de segmentation ont été proposés parmi lesquels certains adoptent une approche non-supervisée motivée linguistique- ment. Cependant les méthodes d'évaluation communément utilisées ne rendent pas compte de toutes les propriétés de tels systèmes. Dans cet article, nous montrons qu'un modèle simple qui repose sur une reformulation en termes d'entropie d'une hypothèse indépendante de la langue énoncée par Harris (1955), permet de segmenter un corpus et d'en extraire un lexique. Testé sur le corpus de l'Academia Sinica, notre système permet l'induction d'une segmen- tation et d'un lexique qui ont de bonnes propriétés intrinsèques et dont les caractéristiques sont similaires à celles du lexique sous-jacent au corpus segmenté manuellement. De plus, on constate une certaine corrélation entre les résultats du modèle de segmentation et les structures syntaxiques fournies par une sous-partie arborée corpus.

Mots clés

Non-supervized segmentation entropy lexicon induction Mandarin Chinese

Domaines

Informatique et langage [cs.CL]

Pierre Magistry : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00605899

Soumis le : lundi 4 juillet 2011-16:53:51

Dernière modification le : vendredi 21 janvier 2022-03:21:20

Dates et versions

inria-00605899 , version 1 (04-07-2011)

Identifiants

HAL Id : inria-00605899 , version 1

Citer

Pierre Magistry, Benoît Sagot. Segmentation et induction de lexique non-supervisées du mandarin. TALN'2011 - Traitement Automatique des Langues Naturelles, ATALA, Jun 2011, Montpellier, France. ⟨inria-00605899⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-PARIS7 INRIA INRIA2

101 Consultations

0 Téléchargements

Segmentation et induction de lexique non-supervisées du mandarin

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager