Vers une meilleure modélisation du langage : la prise en compte des séquences dans les modèles statistiques

Imed Zitouni 1 Kamel Smaïli 1
1 PAROLE - Analysis, perception and recognition of speech
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Nous trouvons dans la langue naturelle, plusieurs séquences de mots clés traduisant la structure d'une phrase. Ces séquences sont de longueur variable et permettent d'avoir une élocution naturelle. Pour tenir compte de ces séquences lors de la reconnaissance de la parole, nous les avons considérées comme des unités et nous les avons ajoutées au vocabulaire de base. Par conséquent, les modèles de langage utilisant ce nouveau vocabulaire se fondent sur un historique d'unités où chacune d'entre elles peut être, soit un mot, soit une séquence. Nous présentons dans ce papier une méthode originale d'extraction de séquences de mots linguistiquement viable ; cette méthode se fonde sur le principe de la théorie de l'information. Nous exposons également dans ce papier différents modèles de langage se basant sur ces séquences. l'évaluation a été effectué avec un dictionnaire de 20000 mots et avec un corpus de 43 million de mots. l'utilisation des séquences a amélioré la perplexité d'environ 23% et le taux d'erreur de notre système de reconnaissance vocale MAUD d'environ 20%. || In natural language, several sequences of words are very frequent. Conventional language models do not adequately take into account such sequences, because they underestimate their probabilities. A better approach consists in modeling word sequences as if
Type de document :
Communication dans un congrès
XXIIIèmes Journées d'Etude sur la Parole - JEP'2000, 2000, Aussois, France, 4 p, 2000
Liste complète des métadonnées

Littérature citée [12 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/inria-00099038
Contributeur : Publications Loria <>
Soumis le : mardi 26 septembre 2006 - 08:47:29
Dernière modification le : jeudi 11 janvier 2018 - 06:19:57
Document(s) archivé(s) le : mercredi 29 mars 2017 - 12:44:47

Fichiers

Identifiants

  • HAL Id : inria-00099038, version 1

Collections

Citation

Imed Zitouni, Kamel Smaïli. Vers une meilleure modélisation du langage : la prise en compte des séquences dans les modèles statistiques. XXIIIèmes Journées d'Etude sur la Parole - JEP'2000, 2000, Aussois, France, 4 p, 2000. 〈inria-00099038〉

Partager

Métriques

Consultations de la notice

223

Téléchargements de fichiers

86