Multimodal Structuring of Tennis Videos using Segment Models

Emmanouil Delakis 1
1 TEXMEX - Multimedia content-based indexing
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
Résumé : L'analyse automatique du contenu de la vidéo est un sujet de recherche émergent avec de nombreuses applications pratiques sur de grandes bases de données de vidéo ou sur les enregistreurs vidéo personnels. Le centre de cette étude est la construction automatique de la table des matières d'une émission de tennis en utilisant les modèles markoviens et la programmation dynamique. Motivés par le besoin de représentations multimodales plus efficaces, nous proposons l'utilisation des caractéristiques segmentales dans le cadre des modèles de segment, au lieu des caractéristiques en trames des modèles de Markov cachés. En considérant chaque scène de la vidéo comme un segment, les points de synchronisation entre différentes modalités sont étendus aux frontières de la scène, qui est l'unité thématique de base de la vidéo. Les caractéristiques visuelles venant de la vidéo diffusée et les caractéristiques auditives enregistrées dans le court sont traitées avant fusion dans leurs propres segments, avec leurs propres modèles et fréquences d'échantillonnage. Diverses techniques pour modéliser les segments sont examinées, y compris les modèles de Markov cachés de densité discrète ou continue, les modèles bigrames ou des approches connexionnistes, fonctionnant sur les caractéristiques audiovisuelles automatiquement extraites. Des modèles de segments et des modèles de Markov cachés, avec des topologies hiérarchiques ou ergodiques, sont établis et comparés sur un corpus de 15 heures de vidéos de tennis. Les paramètres des modèles sont estimés sur des données étiquetées. Selon le modèle segmentale utilisé, la fusion asynchrone avec des modèles de segments peut atteindre le même niveau de performance que les modèles de Markov cachés. La fusion des ressources textuelles de la vidéo, c'est-à-dire les annonces de points, est également considérée. Pour exploiter entièrement leur contenu sémantique sur l'évolution réelle du jeu et tenir compte des événements non reconnus, un arrangement original du décodage de Viterbi a été développé. Il produit des solutions qui sont conformes aux annonces de points et apporte ainsi une nette amélioration de la performance du système.
Type de document :
Thèse
Human-Computer Interaction [cs.HC]. Université Rennes 1, 2006. English
Liste complète des métadonnées

Littérature citée [119 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-00524285
Contributeur : Patrick Gros <>
Soumis le : jeudi 7 octobre 2010 - 14:12:04
Dernière modification le : mercredi 16 mai 2018 - 11:23:05
Document(s) archivé(s) le : lundi 10 janvier 2011 - 11:27:46

Identifiants

  • HAL Id : tel-00524285, version 1

Citation

Emmanouil Delakis. Multimodal Structuring of Tennis Videos using Segment Models. Human-Computer Interaction [cs.HC]. Université Rennes 1, 2006. English. 〈tel-00524285〉

Partager

Métriques

Consultations de la notice

280

Téléchargements de fichiers

353