Vers une meilleure modélisation du langage : la prise en compte des séquences dans les modèles statistiques

Imed Zitouni 1 Kamel Smaïli 1
1 PAROLE - Analysis, perception and recognition of speech
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Nous trouvons dans la langue naturelle, plusieurs séquences de mots clés traduisant la structure d'une phrase. Ces séquences sont de longueur variable et permettent d'avoir une élocution naturelle. Pour tenir compte de ces séquences lors de la reconnaissance de la parole, nous les avons considérées comme des unités et nous les avons ajoutées au vocabulaire de base. Par conséquent, les modèles de langage utilisant ce nouveau vocabulaire se fondent sur un historique d'unités où chacune d'entre elles peut être, soit un mot, soit une séquence. Nous présentons dans ce papier une méthode originale d'extraction de séquences de mots linguistiquement viable ; cette méthode se fonde sur le principe de la théorie de l'information. Nous exposons également dans ce papier différents modèles de langage se basant sur ces séquences. l'évaluation a été effectué avec un dictionnaire de 20000 mots et avec un corpus de 43 million de mots. l'utilisation des séquences a amélioré la perplexité d'environ 23% et le taux d'erreur de notre système de reconnaissance vocale MAUD d'environ 20%. || In natural language, several sequences of words are very frequent. Conventional language models do not adequately take into account such sequences, because they underestimate their probabilities. A better approach consists in modeling word sequences as if
Document type :
Conference papers
Complete list of metadatas

Cited literature [12 references]  Display  Hide  Download

https://hal.inria.fr/inria-00099038
Contributor : Publications Loria <>
Submitted on : Tuesday, September 26, 2006 - 8:47:29 AM
Last modification on : Thursday, January 11, 2018 - 6:19:57 AM
Long-term archiving on: Wednesday, March 29, 2017 - 12:44:47 PM

Identifiers

  • HAL Id : inria-00099038, version 1

Collections

Citation

Imed Zitouni, Kamel Smaïli. Vers une meilleure modélisation du langage : la prise en compte des séquences dans les modèles statistiques. XXIIIèmes Journées d'Etude sur la Parole - JEP'2000, 2000, Aussois, France, 4 p. ⟨inria-00099038⟩

Share

Metrics

Record views

244

Files downloads

124