Comparación léxica de corpus para generación de modelos de lenguaje - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2002

Comparación léxica de corpus para generación de modelos de lenguaje

Résumé

En este artículo se presenta un estudio para evaluar la riqueza léxica de un corpus específicamente recolectado para el entrenamiento de modelos de lenguaje estadísticos. Para ello se presenta un estudio comparativo entre un corpus oral –el corpus DIME– y un corpus recolectado de la Web para la construcción de modelos de lenguaje –el corpus WebDIME–. Los resultados de dicho análisis permiten identificar varios puntos débiles del corpus WebDIME. Básicamente, el coeficiente de diferencia es de 0.71, es decir, el porcentaje de ocurrencias de los términos en estos corpus difiere de manera importante, dado a que existen varios términos sobre o subrepresentados. Este conjunto de términos (las palabras críticas) representa cerca del 4% del total de palabras en el vocabulario.
Fichier principal
Vignette du fichier
Villasenor02a.pdf (66.24 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

inria-00326402 , version 1 (02-10-2008)

Identifiants

  • HAL Id : inria-00326402 , version 1

Citer

Luis Villaseñor-Pineda, Manuel Montes-Y-Gómez, Manuel Pérez-Coutiño, Dominique Vaufreydaz. Comparación léxica de corpus para generación de modelos de lenguaje. IBERAMIA workshop on Multilingual Information Access and Natural Language Processing, Nov 2002, Sevilla, España. 6 p. ⟨inria-00326402⟩
169 Consultations
131 Téléchargements

Partager

Gmail Facebook X LinkedIn More