Modélisation de trajectoires et de classes de locuteurs pour la reconnaissance de voix d'enfants et d'adultes

Arseniy Gorin 1 Denis Jouvet 1
1 PAROLE - Analysis, perception and recognition of speech
Inria Nancy - Grand Est, LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
Résumé : RÉSUMÉ Lorsque l'on considère de la parole produite par des enfants et des adultes, la variabilité acous-tique de chaque unité phonétique devient grande, ce qui dégrade les performances de recon-naissance. Un moyen d'aller au-delà des modèles de Markov traditionnels, est de prendre en considération des classes de locuteurs. Les classes de locuteurs peuvent être obtenues automa-tiquement. Elles servent à fabriquer des modèles acoustiques spécifiques de chaque classe. Ce papier propose une structuration des composantes des densités multigaussiennes (GMMs) en re-lation avec des classes de locuteurs. Dans une première approche, cette structuration des densités est complétée par des pondérations des composantes gaussiennes dépendantes des classes de locuteurs, et dans une deuxième approche, par des matrices de transition entre les composantes gaussiennes des densités (comme dans les stranded GMMs). Ces deux approches apportent des gains substantiels pour la reconnaissance de voix d'enfants et d'adultes. La structuration des composantes gaussiennes complétée par des matrices de transition entre composantes réduit de plus d'un tiers le taux d'erreur mot sur le corpus TIDIGIT.
Type de document :
Communication dans un congrès
XXXème édition des Journées d'Etudes sur la Parole, Jun 2014, Le Mans, France. 2014
Liste complète des métadonnées

Littérature citée [11 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01080343
Contributeur : Denis Jouvet <>
Soumis le : mercredi 5 novembre 2014 - 09:29:03
Dernière modification le : jeudi 11 janvier 2018 - 06:25:24
Document(s) archivé(s) le : vendredi 6 février 2015 - 10:11:04

Fichier

jep2014-agorin-V5-FR-V.01.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01080343, version 1

Collections

Citation

Arseniy Gorin, Denis Jouvet. Modélisation de trajectoires et de classes de locuteurs pour la reconnaissance de voix d'enfants et d'adultes. XXXème édition des Journées d'Etudes sur la Parole, Jun 2014, Le Mans, France. 2014. 〈hal-01080343〉

Partager

Métriques

Consultations de la notice

312

Téléchargements de fichiers

570