Audio-Visual Speaker Conversion using Prosody Features

The article presents a joint audio-video approach towards speaker identity conversion, based on statistical methods originally introduced for voice conversion. Using the experimental data from the 3D BIWI Audiovisual corpus of Affective Communication, mapping functions are built between each two speakers in order to convert speaker-specific features: speech signal and 3D facial expressions. The results obtained by combining audio and visual features are compared to corresponding results from earlier approaches, while outlining the improvements brought by introducing dynamic features and exploiting prosodic features.

L'article présente une approche audio-visuelle pour la conversion de locuteur, basée sur des méthodes statistiques initialement proposées pour la conversion de voix. En utilisant le corpus audiovisuel BIWI 3D, des modèles de conversion entre locuteurs sont calculés séparément pour la voix et les expressions faciales. Les résultats obtenus en combinant les deux modalités sont comparés subjectivement avec d'autres méthodes et démontrent l'importance de la dynamique et de la prosodie.

Mots clés

prosodic features speaker identity conversion gaussian mixture model dynamic features

Domaines

Multimédia [cs.MM] Synthèse d'image et réalité virtuelle [cs.GR] Son [cs.SD] Apprentissage [cs.LG]

Fichier principal

avsp2013.pdf (263.53 Ko)

avsp2013.png (123.79 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Format : Figure, Image

Rémi Ronfard : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-00842928

Soumis le : mardi 9 juillet 2013-17:08:12

Dernière modification le : jeudi 4 avril 2024-18:21:46

Archivage à long terme le : mercredi 5 avril 2017-09:14:16

Dates et versions

hal-00842928 , version 1 (09-07-2013)

Identifiants

HAL Id : hal-00842928 , version 1

Citer

Adela Barbulescu, Thomas Hueber, Gérard Bailly, Rémi Ronfard. Audio-Visual Speaker Conversion using Prosody Features. AVSP 2013 - 12th International Conference on Auditory-Visual Speech Processing, Aug 2013, Annecy, France. pp.11-16. ⟨hal-00842928⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-RENNES1 UGA CNRS INRIA IRISA GIPSA GIPSA-DPC GIPSA-MAGIC LJK LJK_GI LJK_GI_IMAGINE PERSYVAL-LAB INRIA2 UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES ANR UR1-MATH-NUM

738 Consultations

569 Téléchargements