Learning Multi-Modal Dictionaries: Application to Audiovisual Data

Gianluca Monaci; Philippe Jost; Pierre Vandergheynst; Boris Mailhé; Sylvain Lesage; Rémi Gribonval

doi:10.1007/11848035_71

Communication Dans Un Congrès Année : 2006

Learning Multi-Modal Dictionaries: Application to Audiovisual Data

(1) , (1) , (1) , (2) , (2) , (2)

1
2

Gianluca Monaci

Fonction : Auteur

LTS2 - EPFL

Philippe Jost

Fonction : Auteur

LTS2 - EPFL

Pierre Vandergheynst

Fonction : Auteur

LTS2 - EPFL

Boris Mailhé

Fonction : Auteur

Speech and sound data modeling and processing

Sylvain Lesage

Fonction : Auteur
PersonId : 13547
IdHAL : sylvain-lesage
ORCID : 0000-0002-8462-0957
IdRef : 180816713

Speech and sound data modeling and processing

Rémi Gribonval

Fonction : Auteur
PersonId : 1255
IdHAL : remi-gribonval
ORCID : 0000-0002-9450-8125
IdRef : 113181590

Speech and sound data modeling and processing

Résumé

This paper presents a methodology for extracting meaningful synchronous structures from multi-modal signals. Simultaneous processing of multi-modal data can reveal information that is unavailable when handling the sources separately. However, in natural high-dimensional data, the statistical dependencies between modalities are, most of the time, not obvious. Learning fundamental multi-modal patterns is an alternative to classical statistical methods. Typically, recurrent patterns are shift invariant, thus the learning should try to find the best matching filters. We present a new algorithm for iteratively learning multi-modal generating functions that can be shifted at all positions in the signal. The proposed algorithm is applied to audiovisual sequences and it demonstrates to be able to discover underlying structures in the data.

Domaines

Traitement du signal et de l'image [eess.SP] Traitement du signal et de l'image [eess.SP]

Fichier principal

Monaci2006_1502.pdf (478.8 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Rémi Gribonval : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00544773

Soumis le : mardi 8 février 2011-22:35:08

Dernière modification le : vendredi 24 mars 2023-14:52:53

Archivage à long terme le : lundi 9 mai 2011-02:48:27

Dates et versions

inria-00544773 , version 1 (08-02-2011)

Identifiants

HAL Id : inria-00544773 , version 1
DOI : 10.1007/11848035_71

Citer

Gianluca Monaci, Philippe Jost, Pierre Vandergheynst, Boris Mailhé, Sylvain Lesage, et al.. Learning Multi-Modal Dictionaries: Application to Audiovisual Data. Proc. of International Workshop on Multimedia Content Representation, Classification and Security (MCRCS'06), Sep 2006, Istanbul, Turkey. pp.538--545, ⟨10.1007/11848035_71⟩. ⟨inria-00544773⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

EC-PARIS UNIV-RENNES1 CNRS INRIA INSA-RENNES IRISA IRISA-D5 INRIA2 UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES INSA-GROUPE UR1-MATH-NUM

95 Consultations

231 Téléchargements

Learning Multi-Modal Dictionaries: Application to Audiovisual Data

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager