Exploitation d'une marge de tolérance de classification pour améliorer l'apprentissage de modèles acoustiques de classes en reconnaissance de la parole - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2012

Exploitation d'une marge de tolérance de classification pour améliorer l'apprentissage de modèles acoustiques de classes en reconnaissance de la parole

Résumé

This paper presents the introduction of a classification tolerance margin in the classification of the training data for building class-based acoustic models for automatic speech transcription. Indeed, although automatic classification of speech data makes it possible to go beyond the traditional male / female partition, the number of usable classes is actually limited by the reliability of the associated acoustic models which, unfortunately, decreases when the number of classes increases. The reported experiments show that using a tolerance margin in the classification process increases the amount of training data associated to each class, and consequently increases the reliability of the acoustic models of the classes. The performance evaluation carried on the ESTER2 data have shown that it is possible with the proposed approach to build class-based acoustic models that lead to better speech recognition performance than with the usual gender-based acoustic models.
Ce papier présente la prise en compte d'une marge de tolérance lors la classification des données d'apprentissage pour la fabrication de modèles acoustiques de classes pour la transcription automatique de la parole. En effet, bien que la classification automatique des données permette d'aller au-delà de la traditionnelle partition hommes/femmes, le nombre de classes utilisables est généralement limité par la fiabilité des modèles acoustiques associés aux classes, qui malheureusement va en diminuant avec le nombre de classes. Les expériences présentées montrent que la prise en compte d'une marge de tolérance lors de la classification des données d'apprentissage permet d'accroitre la quantité des données associées à chaque classe, et donc la fiabilité des modèles acoustiques associés aux classes. Les évaluations menées sur les données de la campagne ESTER2 ont montré la possibilité de fabriquer ainsi des modèles de classes aboutissant à de meilleures performances que l'utilisation des modèles habituels spécialisés hommes/femmes.
Fichier non déposé

Dates et versions

hal-00753394 , version 1 (19-11-2012)

Identifiants

  • HAL Id : hal-00753394 , version 1

Citer

Denis Jouvet, Arseniy Gorin, Nicolas Vinuesa. Exploitation d'une marge de tolérance de classification pour améliorer l'apprentissage de modèles acoustiques de classes en reconnaissance de la parole. JEP-TALN-RECITAL 2012, Jun 2012, Grenoble, France. pp.763-770. ⟨hal-00753394⟩
161 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More