Internet Documents: A Rich Source for Spoken Language Modeling

Dominique Vaufreydaz; Mohamad Akbar; José Rouillard

Communication Dans Un Congrès Année : 1999

Internet Documents: A Rich Source for Spoken Language Modeling

(1) , (1) , (1)

Dominique Vaufreydaz

Fonction : Auteur
PersonId : 8656
IdHAL : vaufreydaz
ORCID : 0000-0002-8825-0973
IdRef : 064812596

Equipe GEOD, Groupe d'étude sur l'oral et le dialogue

Mohamad Akbar

Fonction : Auteur

Equipe GEOD, Groupe d'étude sur l'oral et le dialogue

José Rouillard

Fonction : Auteur
PersonId : 17870
IdHAL : jose-rouillard
ORCID : 0000-0001-9298-0816
IdRef : 082011265

Equipe GEOD, Groupe d'étude sur l'oral et le dialogue

Résumé

Spoken language speech recognition systems need better understanding of natural spoken language phenomenon than their dictation counterparts. Current language models are mostly based on written text and/or very tedious Wizard of Oz or real dialog experiments1. In this paper we propose to use Internet documents as a very rich source of information for spoken language modeling. Through detailed experiments we show how using Internet we could automatically prepare language models adapted to a given task. For a given recognition system using this approach the word accuracy is up to 15% better than a system using language models trained on written text.

Domaines

Informatique et langage [cs.CL]

Fichier principal

Vaufreydaz99c.pdf (80.69 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Dominique Vaufreydaz : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00326147

Soumis le : mercredi 1 octobre 2008-22:18:27

Dernière modification le : jeudi 4 avril 2024-18:27:40

Archivage à long terme le : vendredi 4 juin 2010-12:05:05

Dates et versions

inria-00326147 , version 1 (01-10-2008)

Identifiants

HAL Id : inria-00326147 , version 1

Citer

Dominique Vaufreydaz, Mohamad Akbar, José Rouillard. Internet Documents: A Rich Source for Spoken Language Modeling. IEEE Workshop ASRU'99 (Automatic Speech Recognition and Understanding), IEEE, Dec 1999, Keystone - Colorado, United States. pp. 277-281. ⟨inria-00326147⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UGA CNRS LIG LIG_SIDCH

147 Consultations

179 Téléchargements

Internet Documents: A Rich Source for Spoken Language Modeling

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager