Explicit trajectories and speaker class modeling for child and adult speech recognition - Archive ouverte HAL Access content directly
Conference Papers Year : 2014

Explicit trajectories and speaker class modeling for child and adult speech recognition

Modélisation de trajectoires et de classes de locuteurs pour la reconnaissance de voix d'enfants et d'adultes

(1) , (1)
1
Denis Jouvet

Abstract

When the speech data is produced by speakers of different age and gender, the acoustic variability of any given phonetic unit becomes large, which degrades speech recognition performance. One way to go beyond conventional Hidden Markov Model is to explicitly include speaker class information in the modeling. Speaker classes can be obtained automatically, and they are used for building speaker class-specific acoustic models. This paper introduces a structuring of the Gaussian components of the GMM densities with respect to the speaker classes. In a first approach, this structuring of the Gaussian components is completed with speaker class-dependent mixture weights, and in a second approach, with transition matrices, which add dependencies between Gaussian components of mixture densities (as in stranded GMMs). The two approaches bring substantial performance improvements when recognizing adult and child speech. Using class-structured components plus mixture transition matrices reduces by more than one third the word error rate on the TIDIGIT corpus.
RÉSUMÉ Lorsque l'on considère de la parole produite par des enfants et des adultes, la variabilité acous-tique de chaque unité phonétique devient grande, ce qui dégrade les performances de recon-naissance. Un moyen d'aller au-delà des modèles de Markov traditionnels, est de prendre en considération des classes de locuteurs. Les classes de locuteurs peuvent être obtenues automa-tiquement. Elles servent à fabriquer des modèles acoustiques spécifiques de chaque classe. Ce papier propose une structuration des composantes des densités multigaussiennes (GMMs) en re-lation avec des classes de locuteurs. Dans une première approche, cette structuration des densités est complétée par des pondérations des composantes gaussiennes dépendantes des classes de locuteurs, et dans une deuxième approche, par des matrices de transition entre les composantes gaussiennes des densités (comme dans les stranded GMMs). Ces deux approches apportent des gains substantiels pour la reconnaissance de voix d'enfants et d'adultes. La structuration des composantes gaussiennes complétée par des matrices de transition entre composantes réduit de plus d'un tiers le taux d'erreur mot sur le corpus TIDIGIT.
Fichier principal
Vignette du fichier
jep2014-agorin-V5-FR-V.01.pdf (143.24 Ko) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

hal-01080343 , version 1 (05-11-2014)

Identifiers

  • HAL Id : hal-01080343 , version 1

Cite

Arseniy Gorin, Denis Jouvet. Modélisation de trajectoires et de classes de locuteurs pour la reconnaissance de voix d'enfants et d'adultes. XXXème édition des Journées d'Etudes sur la Parole, Jun 2014, Le Mans, France. ⟨hal-01080343⟩
228 View
363 Download

Share

Gmail Facebook Twitter LinkedIn More