Utilisation de la linguistique en reconnaissance de la parole : un état de l'art

Stéphane Huet 1, 2 Pascale Sébillot 1 Guillaume Gravier 2
1 TEXMEX - Multimedia content-based indexing
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
2 METISS - Speech and sound data modeling and processing
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
Résumé : Pour transcrire des documents sonores, les systèmes de reconnaissance de la parole font appel à des méthodes statistiques, notamment aux chaînes de Markov cachées et aux modèles N-grammes. Même si ces techniques se sont révélées performantes, elles approchent du maximum de leurs possibilités avec la mise à disposition de corpus de taille suffisante et il semble nécessaire, pour tenter d'aller au-delà des résultats actuels, d'utiliser des informations supplémentaires, en particulier liées au langage. Intégrer de telles connaissances linguistiques doit toutefois se faire en tenant compte des spécificités de l'oral (présence d'hésitations par exemple) et en étant robuste à d'éventuelles erreurs de reconnaissance de certains mots. Ce document présente un état de l'art des recherches de ce type, en évaluant l'impact de l'insertion des informations linguistiques sur la qualité de la transcription. ––– To transcribe speech, automatic speech recognition systems use statistical methods, particularly hidden Markov model and N-gram models. Although these techniques perform well and lead to efficient systems, they approach their maximum possibilities. It seems thus necessary, in order to outperform current results, to use additional information, especially bound to language. However, introducing such knowledge must be realized taking into account specificities of spoken language (hesitations for example) and being robust to possible misrecognized words. This document presents a state of the art of these researches, evaluating the impact of the insertion of linguistic information on the quality of the transcription.
Type de document :
Rapport
[Rapport de recherche] PI 1804, 2006, pp.72
Liste complète des métadonnées

Littérature citée [103 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/inria-00077747
Contributeur : Anne Jaigu <>
Soumis le : jeudi 1 juin 2006 - 09:55:37
Dernière modification le : vendredi 16 novembre 2018 - 01:25:18
Document(s) archivé(s) le : lundi 5 avril 2010 - 22:06:52

Fichiers

Identifiants

  • HAL Id : inria-00077747, version 1

Citation

Stéphane Huet, Pascale Sébillot, Guillaume Gravier. Utilisation de la linguistique en reconnaissance de la parole : un état de l'art. [Rapport de recherche] PI 1804, 2006, pp.72. 〈inria-00077747〉

Partager

Métriques

Consultations de la notice

465

Téléchargements de fichiers

538