Big deep voice : indexation de données massives de parole grâce à des réseaux de neurones profonds

Antoine Perquin 1
1 EXPRESSION - Expressiveness in Human Centered Data/Media
UBS - Université de Bretagne Sud, IRISA-D6 - MEDIA ET INTERACTIONS
Résumé : Les systèmes de synthèse de parole sont des outils permettant de générer un signal de parole correspondant à un texte. Les solutions actuelles fournissent un signal de qualité, mais la parole générée est peu expressive, notamment en raison de leur jeu de données limité. Pour résoudre ce probleme, il est donc nécessaire d'augmenter la quantité de données pour y intégrer de la variabilité. Cela soulève néanmoins plusieurs problématiques : comment décrire et comparer les données ? et comment rechercher des données lorsque leurs descripteurs sont de grande taille et que le nombre de données est conséquent ? Le but de ce stage est de mettre en place une mesure de similarité entre phonèmes, puis éventuellement un algorithme de recherche de plus proches voisins, qui pourront être intégrés au système de synthèse de parole de l'équipe Expression. Pour répondre à la problématique de description et comparaison des données, nous utiliserons la propriété de plongement des réseaux de neurones. Pour répondre à la problématique de recherche de données, nous proposons d'utiliser une méthode de recherche de plus proches voisins en grande dimension. Le but de ce stage est d'étudier la faisabilité de la solution choisie, notamment en proposant des méthodes d'évaluation de la qualité d'un plongement.
Type de document :
Mémoires d'étudiants -- Hal-inria+
Intelligence artificielle [cs.AI]. 2017
Liste complète des métadonnées

Littérature citée [25 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01650993
Contributeur : Gwénolé Lecorvé <>
Soumis le : mardi 28 novembre 2017 - 15:30:50
Dernière modification le : jeudi 5 avril 2018 - 12:30:23

Fichier

MRI_2016-2017_paper_78.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01650993, version 1

Citation

Antoine Perquin. Big deep voice : indexation de données massives de parole grâce à des réseaux de neurones profonds. Intelligence artificielle [cs.AI]. 2017. 〈hal-01650993〉

Partager

Métriques

Consultations de la notice

172

Téléchargements de fichiers

23