Low latency and tight resources viseme recognition from speech using an artificial neural network

Nathan Souviraà-Labastie 1 Frédéric Bimbot 1
1 METISS - Speech and sound data modeling and processing
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
Résumé : Ce rapport présente un système de reconnaissance de visèmes à partir du signal de parole utilisant un réseau de neurones artificiels et capable de fonctionner en temps réel. Un Multi-Layer Perceptron (MLP) permet d'obtenir une méthode rapide et légère adaptée à l'application finale (i.e., l'animation des lèvres d'un avatar par une plateforme multitâche de type set-top-box avec des contraintes de ressources et de latence). Plusieurs améliorations de ce système sont également présentées telles que la sélection des données d'apprentissage, la taille du réseau, la taille de la base d'apprentissage ou encore le choix de l'unité acoustique à reconnaître. Toutes ces variantes sont comparées au système de base. La combinaison de toutes ces améliorations permet d'atteindre un taux de reconnaissance de 64.3% pour un jeu de 18 visèmes et 70.8% pour 9 visèmes. Nous proposons ensuite un système faisant le compromis entre performance, besoin en ressources et latence. Une variante adaptable (scalable) est aussi décrite.
Type de document :
Rapport
[Research Report] RR-8338, INRIA. 2013
Liste complète des métadonnées

Littérature citée [8 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00848629
Contributeur : Nathan Souviraà-Labastie <>
Soumis le : vendredi 26 juillet 2013 - 16:30:08
Dernière modification le : mercredi 16 mai 2018 - 11:23:03
Document(s) archivé(s) le : dimanche 27 octobre 2013 - 03:20:11

Fichier

RR-8338.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00848629, version 1

Citation

Nathan Souviraà-Labastie, Frédéric Bimbot. Low latency and tight resources viseme recognition from speech using an artificial neural network. [Research Report] RR-8338, INRIA. 2013. 〈hal-00848629〉

Partager

Métriques

Consultations de la notice

495

Téléchargements de fichiers

202