Utilisation des documents en provenance d'Internet pour l'apprentissage de modèles de langage

Résumé : L'un des composants principaux d'un système de reconnaissance de la parole (SRAP) est le modèle de langage (ML). Son rôle est de réduire l'espace de recherche pour accélérer le processus de reconnaissance. Dans un SRAP basé sur une reconnaissance phonémique, le ML est aussi un pont entre les représentations textuelle et phonétiques des mots. Les ML sont calculés sur des textes de grande taille tout en contrôlant le vocabulaire, la longueur employée (2, 3 ou plus de mots) pour les contextes et les méthodes de backoff pour l'intégration des mots hors vocabulaire. L'adéquation d'un ML à une tâche est généralement décrite par la mesure de la perplexité. La taille du corpus est déterminante pour le calcul du ML. En effet, en l'augmentant, il est possible d'accroître le nombre de contextes rencontrés pendant l'apprentissage, et d'avoir une meilleure estimation des probabilités qui leur sont associées. Ainsi, il est évident que les textes écrits ne peuvent pas directement servir au calcul de ML appropriés à la reconnaissance de la parole spontanée. Pour cette raison, nous portons notre attention sur d'autres sources de textes pour l'apprentissage : les documents en provenance d'Internet. En effet, de nos jours, beaucoup de personnes accèdent à Internet dans le cadre de leur travail, de leur école, ou à partir de chez eux. Non seulement ils utilisent les informations du réseau mais ils publient aussi leurs propres documents. Ceux-ci sont donc de différentes natures (professionnelle, personnelle, et.) et représentent diverses manières de s'exprimer. Il est donc possible d'y trouver un vocabulaire et des expressions de la vie courante qui ne sont pas présentes dans les textes écrits. Dans la section 2, nous décrivons comment, à l'aide de robots et de filtres appropriés, nous avons collecté beaucoup de données utilisables pour le calcul de ML. Dans la section 3, nous étudions les résultats, en termes de nombre de contextes et de perplexité, exprimés en fonction de la taille du corpus.
Type de document :
Communication dans un congrès
RJC'99 (Rencontres Jeunes Chercheurs en parole), Nov 1999, Avignon, France. 1999
Liste complète des métadonnées

Littérature citée [4 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/inria-00326148
Contributeur : Dominique Vaufreydaz <>
Soumis le : mercredi 1 octobre 2008 - 22:22:42
Dernière modification le : jeudi 2 octobre 2008 - 20:33:34
Document(s) archivé(s) le : vendredi 4 juin 2010 - 12:05:19

Fichier

Vaufreydaz99b.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00326148, version 1

Citation

Dominique Vaufreydaz. Utilisation des documents en provenance d'Internet pour l'apprentissage de modèles de langage. RJC'99 (Rencontres Jeunes Chercheurs en parole), Nov 1999, Avignon, France. 1999. 〈inria-00326148〉

Partager

Métriques

Consultations de la notice

58

Téléchargements de fichiers

36