Acoustic Model Structuring for Improving Automatic Speech Recognition Performance

Arseniy Gorin 1
1 PAROLE - Analysis, perception and recognition of speech
Inria Nancy - Grand Est, LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
Résumé : Cette thèse se concentre sur la structuration du modèle acoustique pour améliorer la reconnaissance de la parole par modèle de Markov. La structuration repose sur l’utilisation d’une classification non supervisée des phrases du corpus d’apprentissage pour tenir compte des variabilités dues aux locuteurs et aux canaux de transmission. L’idée est de regrouper automatiquement les phrases prononcées en classes correspondant à des données acoustiquement similaires. Pour la modélisation multiple, un modèle acoustique indépendant du locuteur est adapté aux données de chaque classe. Quand le nombre de classes augmente, la quantité de données disponibles pour l’apprentissage du modèle de chaque classe diminue, et cela peut rendre la modélisation moins fiable. Une façon de pallier ce problème est de modifier le critère de classification appliqué sur les données d’apprentissage pour permettre à une phrase d’être associée à plusieurs classes. Ceci est obtenu par l’introduction d’une marge de tolérance lors de la classification ; et cette approche est étudiée dans la première partie de la these. L’essentiel de la thèse est consacré à une nouvelle approche qui utilise la classification automatique des données d’apprentissage pour structurer le modèle acoustique. Ainsi, au lieu d’adapter tous les paramètres du modèle HMM-GMM pour chaque classe de données, les informations de classe sont explicitement introduites dans la structure des GMM en associant chaque composante des densités multigaussiennes avec une classe. Pour exploiter efficacement cette structuration des composantes, deux types de modélisations sont proposés. Dans la première approche on propose de compléter cette structuration des densités par des pondérations des composantes gaussiennes dépendantes des classes de locuteurs. Pour cette modélisation, les composantes gaussiennes des mélanges GMM sont structurées en fonction des classes et partagées entre toutes les classes, tandis que les pondérations des composantes des densités sont dépendantes de la classe. Lors du décodage, le jeu de pondérations des gaussiennes est sélectionné en fonction de la classe estimée. Dans une deuxième approche, les pondérations des gaussiennes sont remplacées par des matrices de transition entre les composantes gaussiennes des densités. Les approches proposées dans cette thèse sont analysées et évaluées sur différents corpus de parole qui couvrent différents sources de variabilité (âge, sexe, accent et bruit).
Type de document :
Thèse
Sound [cs.SD]. Université de Lorraine, 2014. English. 〈NNT : 2014LORR0161〉
Liste complète des métadonnées

Littérature citée [107 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/tel-01751053
Contributeur : Arseniy Gorin <>
Soumis le : lundi 12 janvier 2015 - 15:31:49
Dernière modification le : mercredi 23 mai 2018 - 01:29:23
Document(s) archivé(s) le : lundi 13 avril 2015 - 10:25:31

Identifiants

  • HAL Id : tel-01751053, version 2

Citation

Arseniy Gorin. Acoustic Model Structuring for Improving Automatic Speech Recognition Performance. Sound [cs.SD]. Université de Lorraine, 2014. English. 〈NNT : 2014LORR0161〉. 〈tel-01751053v2〉

Partager

Métriques

Consultations de la notice

8753

Téléchargements de fichiers

799