Comparación léxica de corpus para generación de modelos de lenguaje

Résumé : En este artículo se presenta un estudio para evaluar la riqueza léxica de un corpus específicamente recolectado para el entrenamiento de modelos de lenguaje estadísticos. Para ello se presenta un estudio comparativo entre un corpus oral –el corpus DIME– y un corpus recolectado de la Web para la construcción de modelos de lenguaje –el corpus WebDIME–. Los resultados de dicho análisis permiten identificar varios puntos débiles del corpus WebDIME. Básicamente, el coeficiente de diferencia es de 0.71, es decir, el porcentaje de ocurrencias de los términos en estos corpus difiere de manera importante, dado a que existen varios términos sobre o subrepresentados. Este conjunto de términos (las palabras críticas) representa cerca del 4% del total de palabras en el vocabulario.
Type de document :
Communication dans un congrès
IBERAMIA workshop on Multilingual Information Access and Natural Language Processing, Nov 2002, Sevilla, España. 6 p., 2002
Liste complète des métadonnées

Littérature citée [5 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/inria-00326402
Contributeur : Dominique Vaufreydaz <>
Soumis le : jeudi 2 octobre 2008 - 20:51:27
Dernière modification le : jeudi 2 octobre 2008 - 21:20:49
Document(s) archivé(s) le : vendredi 4 juin 2010 - 12:09:05

Fichier

Villasenor02a.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00326402, version 1

Citation

Luis Villaseñor-Pineda, Manuel Montes-Y-Gómez, Manuel Pérez-Coutiño, Dominique Vaufreydaz. Comparación léxica de corpus para generación de modelos de lenguaje. IBERAMIA workshop on Multilingual Information Access and Natural Language Processing, Nov 2002, Sevilla, España. 6 p., 2002. 〈inria-00326402〉

Partager

Métriques

Consultations de la notice

141

Téléchargements de fichiers

89