An empirical study of maximum entropy approach for part-of-speech tagging of Vietnamese texts

Résumé : Nous présentons dans cet article une étude empirique de l'application de l'approche de l'entropie maximale pour l'étiquetage syntaxique de textes vietnamiens. Le vietnamien est une langue qui possède des caractéristiques spéciales qui la distinguent largement des langues occidentales. Notremeilleur étiqueteur explore et inclut des connaissances utiles qui, en terme de performance pour l'étiquetage de textes vietnamiens, fournit un taux de précision globale de 93.40% et de 80.69% pour les mots inconnus sur un ensemble de test du corpus arboré vietnamien. Notre étiqueteur est nettement supérieur à celui qui est en train d'être utilisé pour développer le corpus arboré vietnamien, et à l'heure actuelle c'est le meilleur résultat obtenu pour l'étiquetage de textes vietnamiens.
Type de document :
Communication dans un congrès
Traitement Automatique des Langues Naturelles - TALN 2010, Jul 2010, Montréal, Canada. pp.12, 2010
Liste complète des métadonnées

Littérature citée [19 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/inria-00526139
Contributeur : Phuong Le-Hong <>
Soumis le : mercredi 13 octobre 2010 - 18:29:40
Dernière modification le : mardi 24 avril 2018 - 13:37:19
Document(s) archivé(s) le : vendredi 14 janvier 2011 - 03:12:50

Fichier

vnTagger.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00526139, version 1

Collections

Citation

Phuong Le-Hong, Azim Roussanaly, Thi Minh Huyen Nguyen, Mathias Rossignol. An empirical study of maximum entropy approach for part-of-speech tagging of Vietnamese texts. Traitement Automatique des Langues Naturelles - TALN 2010, Jul 2010, Montréal, Canada. pp.12, 2010. 〈inria-00526139〉

Partager

Métriques

Consultations de la notice

959

Téléchargements de fichiers

671