Inversion from Audiovisual Speech to Articulatory Information by Exploiting Multimodal Data

Athanassios Katsamanis; Anastasios Roussos; Petros Maragos; Michael Aron; Marie-Odile Berger

Communication Dans Un Congrès Année : 2008

Inversion from Audiovisual Speech to Articulatory Information by Exploiting Multimodal Data

(1) , (1) , (1) , (2) , (2)

1
2

Athanassios Katsamanis

Fonction : Auteur

Computer Vision, Speech Communication and Signal Processing Group

Anastasios Roussos

Fonction : Auteur
PersonId : 853113

Computer Vision, Speech Communication and Signal Processing Group

Petros Maragos

Fonction : Auteur
PersonId : 843146

Computer Vision, Speech Communication and Signal Processing Group

Michael Aron

Fonction : Auteur
PersonId : 7501
IdHAL : michael-aron
ORCID : 0000-0002-6460-8715
IdRef : 139502254

Visual Augmentation of Complex Environments

Marie-Odile Berger

Fonction : Auteur
PersonId : 830601

Visual Augmentation of Complex Environments

Résumé

We present an inversion framework to identify speech production properties from audiovisual information. Our system is built on a multimodal articulatory dataset comprising ultrasound, X-ray, magnetic resonance images as well as audio and stereovisual recordings of the speaker. Visual information is captured via stereovision while the vocal tract state is represented by a properly trained articulatory model. Inversion is based on an adaptive piecewise linear approximation of the audiovisualto- articulation mapping. The presented system can recover the hidden vocal tract shapes and may serve as a basis for a more widely applicable inversion setup.

Domaines

Traitement du signal et de l'image [eess.SP] Traitement du signal et de l'image [eess.SP]

Fichier principal

KatsamanisRoussosMaragosAronBerger_AVInversionMultimodalArtData_issp2008.pdf (696.35 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Michael Aron : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00327031

Soumis le : mardi 6 janvier 2009-14:16:36

Dernière modification le : jeudi 15 février 2024-03:31:54

Archivage à long terme le : jeudi 3 juin 2010-22:24:11

Dates et versions

inria-00327031 , version 1 (06-01-2009)

Identifiants

HAL Id : inria-00327031 , version 1

Citer

Athanassios Katsamanis, Anastasios Roussos, Petros Maragos, Michael Aron, Marie-Odile Berger. Inversion from Audiovisual Speech to Articulatory Information by Exploiting Multimodal Data. 8th International Seminar On Speech Production - ISSP'08, Dec 2008, Strasbourg, France. ⟨inria-00327031⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-RENNES1 CNRS INRIA IRISA UNIV-LORRAINE INRIA2 LORIA UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES UR1-MATH-NUM

81 Consultations

100 Téléchargements

Inversion from Audiovisual Speech to Articulatory Information by Exploiting Multimodal Data

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager