Uncertainty learning for noise robust ASR

Dung Tien Tran 1
1 MULTISPEECH - Speech Modeling for Facilitating Oral-Based Communication
Inria Nancy - Grand Est, LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
Résumé : Cette th`ese se focalise sur la reconnaissance automatique de la parole (RAP) robuste au bruit. Elle comporte deux parties. Premi`erement, nous nous focalisons sur une meilleure prise en compte des incertitudes pour am ́eliorer la performance de RAP en environnement bruit ́e. Deuxi`emement, nous pr ́esentons une m ́ethode pour acc ́el ́erer l’apprentissage d’un r ́eseau de neurones en utilisant une fonction auxiliaire. Dans la premi`ere partie, une technique de rehaussement multicanal est appliqu ́ee `a la parole bruit ́ee en entr ́ee. La distribution a posteriori de la parole propre sous-jacente est alors estim ́ee et repr ́esent ́ee par sa moyenne et sa matrice de covariance, ou incertitude. Nous montrons comment propager la matrice de covariance diagonale de l’incertitude dans le domaine spectral a travers le calcul des descripteurs pour obtenir la matrice de covariance pleine de l’incertitude sur les descripteurs. Le d ́ecodage incertain exploite cette distribution a posteriori pour modifier dynamiquement les param`etres du mod`ele acoustique au d ́ecodage. La r`egle de d ́ecodage consiste simplement `a ajouter la matrice de covariance de l’incertitude `a la variance de chaque gaussienne. Nous proposons ensuite deux estimateurs d’incertitude bas ́es respectivement sur la fusion et sur l’estimation non-param ́etrique. Pour construire un nouvel estimateur, nous consid ́erons la combinaison lin ́eaire d’estimateurs existants ou de fonctions noyaux. Les poids de combinaison sont estim ́es de fa ̧con g ́en ́erative en minimisant une mesure de divergence par rapport a l’incertitude oracle. Les mesures de divergence utilis ́ees sont des versions pond ́er ́ees des divergences de Kullback-Leibler (KL), d’Itakura-Saito (IS) ou euclidienne (EU). En raison de la positivit ́e inh ́erente de l’incertitude, ce probl`eme d’estimation peut ˆetre vu comme une instance de factorisation matricielle positive (NMF) pond ́er ́ee. De plus, nous proposons deux estimateurs d’incertitude discriminants bas ́es sur une transformation lin ́eaire ou non-lin ́eaire de l’incertitude estim ́ee de fa ̧con g ́en ́erative. Cette transformation est entraˆın ́ee de sorte `a maximiser le crit`ere de maximum d’information mutuelle boost ́e (bMMI). Nous calculons la d ́eriv ́ee de ce crit`ere en utilisant la r`egle de d ́erivation en chaˆıne et nous l’optimisons par descente de gradient stochastique. Dans la seconde partie, nous introduisons une nouvelle m ́ethode d’apprentissage pour les r ́eseaux de neurones bas ́ee sur une fonction auxiliaire sans aucun r ́eglage de param`etre. Au lieu de maximiser la fonction objectif, cette technique consiste `a maximiser une fonction auxiliaire qui est introduite de fa ̧con r ́ecursive couche par couche et dont le minimum a une expression analytique. Grˆace aux propri ́et ́es de cette fonction, la d ́ecroissance monotone de la fonction objectif est garantie.
Type de document :
Thèse
Sound [cs.SD]. Université de Lorraine, 2015. English
Liste complète des métadonnées

Littérature citée [116 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/tel-01246481
Contributeur : Dung Tran <>
Soumis le : vendredi 18 décembre 2015 - 15:49:58
Dernière modification le : jeudi 11 janvier 2018 - 06:27:31
Document(s) archivé(s) le : samedi 19 mars 2016 - 14:20:50

Identifiants

  • HAL Id : tel-01246481, version 1

Citation

Dung Tien Tran. Uncertainty learning for noise robust ASR. Sound [cs.SD]. Université de Lorraine, 2015. English. 〈tel-01246481〉

Partager

Métriques

Consultations de la notice

344

Téléchargements de fichiers

245