Automatic Speech Recognition for Non-Native Speakers

Résumé : Les technologies de reconnaissance automatique de la parole sont désormais intégrées dans de nombreux systèmes. La performance des systèmes de reconnaissance vocale pour les locuteurs non natifs continue cependant à souffrir de taux d'erreur élevés, en raison de la différence entre la parole non native et les modèles entraînés. La réalisation d'enregistrements en grande quantité de parole non native est souvent difficile et peu réaliste pour représenter toutes les origines des locuteurs.
Dans cette thèse, nous proposons des approches pour adapter les modèles acoustiques et de prononciation sous différentes conditions de ressource pour les locuteurs non natifs. Un travail préliminaire sur l'identification d'accent a également proposé.
Ce travail de thèse repose sur le concept de modélisation acoustique translingue qui permet de représenter les locuteurs non natifs dans un espace multilingue sans utiliser (ou en utilisant très peu) de parole non native. Une approche hybride d'interpolation et de fusion est proposée pour l'adaptation des modèles en langue cible en utilisant une collection de modèles acoustiques multilingues. L'approche proposée est également utile pour la modélisation du contexte de prononciation. Si, en revanche, des corpus multilingues sont disponibles, des méthodes d'interpolation peuvent être utilisées pour l'adaptation à la parole non native. Deux d'entre elles sont proposées pour une adaptation supervisée et peuvent être employées avec seulement quelques phrases non natives.
En ce qui concerne la modélisation de la prononciation, deux approches existantes (l'une fondée sur la modification du dictionnaire de prononciation, l'autre fondée sur la définition d'un score de prononciation utilisé dans une phase de re-scoring) sont revisitées dans cette thèse et adaptées pour fonctionner sur une quantité de données limitée. Une nouvelle approche de groupement de locuteurs selon leurs habitudes de prononciation, est également présentée : nous l'appelons « analyse de prononciation latente ». Cette approche se révèle également utile pour améliorer le modèle de prononciation pour la reconnaissance automatique de la parole non native.
Enfin, une méthode d'identification d'accent est proposée. Elle nécessite une petite quantité de parole non native pour créer les modèles d'accents. Ceci est rendu possible en utilisant la capacité de généralisation des arbres de décision et en utilisant des ressources multilingues pour augmenter la performance du modèle d'accent.
Type de document :
Thèse
Other [cs.OH]. Université Joseph-Fourier - Grenoble I, 2008. English
Liste complète des métadonnées

Littérature citée [87 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-00294973
Contributeur : Tan Tien Ping <>
Soumis le : jeudi 10 juillet 2008 - 18:57:59
Dernière modification le : jeudi 11 octobre 2018 - 08:48:01
Document(s) archivé(s) le : vendredi 28 mai 2010 - 21:38:31

Identifiants

  • HAL Id : tel-00294973, version 1

Collections

Citation

Tan Tien Ping. Automatic Speech Recognition for Non-Native Speakers. Other [cs.OH]. Université Joseph-Fourier - Grenoble I, 2008. English. 〈tel-00294973〉

Partager

Métriques

Consultations de la notice

349

Téléchargements de fichiers

1026