Utilisation des documents en provenance d'Internet pour l'apprentissage de modèles de langage

Résumé : L'un des composants principaux d'un système de reconnaissance de la parole (SRAP) est le modèle de langage (ML). Son rôle est de réduire l'espace de recherche pour accélérer le processus de reconnaissance. Dans un SRAP basé sur une reconnaissance phonémique, le ML est aussi un pont entre les représentations textuelle et phonétiques des mots. Les ML sont calculés sur des textes de grande taille tout en contrôlant le vocabulaire, la longueur employée (2, 3 ou plus de mots) pour les contextes et les méthodes de backoff pour l'intégration des mots hors vocabulaire. L'adéquation d'un ML à une tâche est généralement décrite par la mesure de la perplexité. La taille du corpus est déterminante pour le calcul du ML. En effet, en l'augmentant, il est possible d'accroître le nombre de contextes rencontrés pendant l'apprentissage, et d'avoir une meilleure estimation des probabilités qui leur sont associées. Ainsi, il est évident que les textes écrits ne peuvent pas directement servir au calcul de ML appropriés à la reconnaissance de la parole spontanée. Pour cette raison, nous portons notre attention sur d'autres sources de textes pour l'apprentissage : les documents en provenance d'Internet. En effet, de nos jours, beaucoup de personnes accèdent à Internet dans le cadre de leur travail, de leur école, ou à partir de chez eux. Non seulement ils utilisent les informations du réseau mais ils publient aussi leurs propres documents. Ceux-ci sont donc de différentes natures (professionnelle, personnelle, et.) et représentent diverses manières de s'exprimer. Il est donc possible d'y trouver un vocabulaire et des expressions de la vie courante qui ne sont pas présentes dans les textes écrits. Dans la section 2, nous décrivons comment, à l'aide de robots et de filtres appropriés, nous avons collecté beaucoup de données utilisables pour le calcul de ML. Dans la section 3, nous étudions les résultats, en termes de nombre de contextes et de perplexité, exprimés en fonction de la taille du corpus.
Document type :
Conference papers
Complete list of metadatas

Cited literature [4 references]  Display  Hide  Download

https://hal.inria.fr/inria-00326148
Contributor : Dominique Vaufreydaz <>
Submitted on : Wednesday, October 1, 2008 - 10:22:42 PM
Last modification on : Thursday, February 7, 2019 - 5:03:39 PM
Long-term archiving on : Friday, June 4, 2010 - 12:05:19 PM

File

Vaufreydaz99b.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : inria-00326148, version 1

Collections

LIG | UGA

Citation

Dominique Vaufreydaz. Utilisation des documents en provenance d'Internet pour l'apprentissage de modèles de langage. RJC'99 (Rencontres Jeunes Chercheurs en parole), Réseau RJC, Nov 1999, Avignon, France. ⟨inria-00326148⟩

Share

Metrics

Record views

69

Files downloads

45