Comparación léxica de corpus para generación de modelos de lenguaje
Résumé
En este artículo se presenta un estudio para evaluar la riqueza léxica de un corpus específicamente recolectado para el entrenamiento de modelos de lenguaje estadísticos. Para ello se presenta un estudio comparativo entre un corpus oral –el corpus DIME– y un corpus recolectado de la Web para la construcción de modelos de lenguaje –el corpus WebDIME–. Los resultados de dicho análisis permiten identificar varios puntos débiles del corpus WebDIME. Básicamente, el coeficiente de diferencia es de 0.71, es decir, el porcentaje de ocurrencias de los términos en estos corpus difiere de manera importante, dado a que existen varios términos sobre o subrepresentados. Este conjunto de términos (las palabras críticas) representa cerca del 4% del total de palabras en el vocabulario.
Domaines
Informatique et langage [cs.CL]
Origine : Fichiers produits par l'(les) auteur(s)
Loading...