Finding Audio-Visual Events in Informal Social Gatherings

Xavier Alameda-Pineda 1 Vasil Khalidov 2 Radu Horaud 1 Florence Forbes 3
1 PERCEPTION - Interpretation and Modelling of Images and Videos
Inria Grenoble - Rhône-Alpes, LJK - Laboratoire Jean Kuntzmann, INPG - Institut National Polytechnique de Grenoble
3 MISTIS - Modelling and Inference of Complex and Structured Stochastic Systems
Inria Grenoble - Rhône-Alpes, LJK - Laboratoire Jean Kuntzmann, INPG - Institut National Polytechnique de Grenoble
Résumé : Dans cet article nous abordons le problème de la détection et de localisation objets qui peuvent être à la fois vu et entendu, par exemple, les gens. Cela peut être résolu dans le cadre du regroupement des données. Nous proposons une nouvel algorithme de clustering multimodale basée sur un mélange de gaussiennes modèle, où l'une des modalités (visuelle de données) est utilisé pour de superétau le processus de regroupement. Ceci est rendu possible par la cartographie à la fois modalités dans le même espace métrique. À cette fin, nous avons pleinement exPloit les propriétés géométriques et physiques d'un audio-visuels senSOR repose sur la vision binoculaire et une audition inaurale. Nous proposons un algorithme EM qui est théoriquement tout à fait justifiée, intuitive et extrêmement efficace d'un point de vue informatique. Cette efficacité rend le implémentable méthode sur des plates-formes avancées tels que des robots humanoïdes. Nous décrivons dans les tests de détail et expéments effectués avec les données disponibles publiquement que les ensembles de rendement très des résultats intéressants.
Type de document :
Communication dans un congrès
ACM/IEEE International Conference on Multimodal Interaction, Nov 2011, Alicante, Spain. ACM, pp.247-254, 2011, 〈10.1145/2070481.2070527〉
Liste complète des métadonnées

Littérature citée [27 références]  Voir  Masquer  Télécharger


https://hal.inria.fr/inria-00623489
Contributeur : Team Perception <>
Soumis le : vendredi 21 mars 2014 - 10:17:02
Dernière modification le : mercredi 11 avril 2018 - 01:50:53
Document(s) archivé(s) le : samedi 21 juin 2014 - 10:55:29

Fichiers

Alameda-ICMI-2011.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

Citation

Xavier Alameda-Pineda, Vasil Khalidov, Radu Horaud, Florence Forbes. Finding Audio-Visual Events in Informal Social Gatherings. ACM/IEEE International Conference on Multimodal Interaction, Nov 2011, Alicante, Spain. ACM, pp.247-254, 2011, 〈10.1145/2070481.2070527〉. 〈inria-00623489v2〉

Partager

Métriques

Consultations de la notice

463

Téléchargements de fichiers

216