Comparación léxica de corpus para generación de modelos de lenguaje

Luis Villaseñor-Pineda; Manuel Montes-Y-Gómez; Manuel Pérez-Coutiño; Dominique Vaufreydaz

Communication Dans Un Congrès Année : 2002

Comparación léxica de corpus para generación de modelos de lenguaje

(1) , (1) , (1) , (2)

1
2

Luis Villaseñor-Pineda

Fonction : Auteur

Laboratorio de Tecnologías de Lenguaje

Manuel Montes-Y-Gómez

Fonction : Auteur

Laboratorio de Tecnologías de Lenguaje

Manuel Pérez-Coutiño

Fonction : Auteur

Laboratorio de Tecnologías de Lenguaje

Dominique Vaufreydaz

Fonction : Auteur
PersonId : 8656
IdHAL : vaufreydaz
ORCID : 0000-0002-8825-0973
IdRef : 064812596

Equipe GEOD, Groupe d'étude sur l'oral et le dialogue

Résumé

En este artículo se presenta un estudio para evaluar la riqueza léxica de un corpus específicamente recolectado para el entrenamiento de modelos de lenguaje estadísticos. Para ello se presenta un estudio comparativo entre un corpus oral –el corpus DIME– y un corpus recolectado de la Web para la construcción de modelos de lenguaje –el corpus WebDIME–. Los resultados de dicho análisis permiten identificar varios puntos débiles del corpus WebDIME. Básicamente, el coeficiente de diferencia es de 0.71, es decir, el porcentaje de ocurrencias de los términos en estos corpus difiere de manera importante, dado a que existen varios términos sobre o subrepresentados. Este conjunto de términos (las palabras críticas) representa cerca del 4% del total de palabras en el vocabulario.

Domaines

Informatique et langage [cs.CL]

Fichier principal

Villasenor02a.pdf (66.24 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Dominique Vaufreydaz : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00326402

Soumis le : jeudi 2 octobre 2008-20:51:27

Dernière modification le : jeudi 4 avril 2024-21:21:57

Archivage à long terme le : vendredi 4 juin 2010-12:09:05

Dates et versions

inria-00326402 , version 1 (02-10-2008)

Identifiants

HAL Id : inria-00326402 , version 1

Citer

Luis Villaseñor-Pineda, Manuel Montes-Y-Gómez, Manuel Pérez-Coutiño, Dominique Vaufreydaz. Comparación léxica de corpus para generación de modelos de lenguaje. IBERAMIA workshop on Multilingual Information Access and Natural Language Processing, Nov 2002, Sevilla, España. 6 p. ⟨inria-00326402⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UGA CNRS LIG LIG_SIDCH

169 Consultations

131 Téléchargements

Comparación léxica de corpus para generación de modelos de lenguaje

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager