Utilisation de la linguistique en reconnaissance de la parole : un état de l'art

Stéphane Huet 1, 2 Pascale Sébillot 1 Guillaume Gravier 2
1 TEXMEX - Multimedia content-based indexing
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
2 METISS - Speech and sound data modeling and processing
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
Résumé : To transcribe speech, automatic speech recognition systems use statistical methods, particularly hidden Markov model and N-gram models. Although these techniques perform well and lead to efficient systems, they approach their maximum possibilities. It seems thus necessary, in order to outperform current results, to use additional information, especially bound to language. However, introducing such knowledge must be realized taking into account specificities of spoken language (hesitations for example) and being robust to possible misrecognized words. This document presents a state of the art of these researches, evaluating the impact of the insertion of linguistic information on the quality of the transcription. ––– Pour transcrire des documents sonores, les systèmes de reconnaissance de la parole font appel à des méthodes statistiques, notamment aux chaînes de Markov cachées et aux modèles N-grammes. Même si ces techniques se sont révélées performantes, elles approchent du maximum de leurs possibilités avec la mise à disposition de corpus de taille suffisante et il semble nécessaire, pour tenter d'aller au-delà des résultats actuels, d'utiliser des informations supplémentaires, en particulier liées au langage. Intégrer de telles connaissances linguistiques doit toutefois se faire en tenant compte des spécificités de l'oral (présence d'hésitations par exemple) et en étant robuste à d'éventuelles erreurs de reconnaissance de certains mots. Ce document présente un état de l'art des recherches de ce type, en évaluant l'impact de l'insertion des informations linguistiques sur la qualité de la transcription.
Type de document :
Rapport
[Rapport de recherche] RR-5917, INRIA. 2006, pp.72
Liste complète des métadonnées

https://hal.inria.fr/inria-00077386
Contributeur : Rapport de Recherche Inria <>
Soumis le : jeudi 1 juin 2006 - 10:25:58
Dernière modification le : jeudi 11 janvier 2018 - 06:20:10
Document(s) archivé(s) le : lundi 20 septembre 2010 - 14:11:58

Fichiers

Identifiants

Citation

Stéphane Huet, Pascale Sébillot, Guillaume Gravier. Utilisation de la linguistique en reconnaissance de la parole : un état de l'art. [Rapport de recherche] RR-5917, INRIA. 2006, pp.72. 〈inria-00077386v2〉

Partager

Métriques

Consultations de la notice

232

Téléchargements de fichiers

126