Skip to Main content Skip to Navigation
Theses

Multimodal Structuring of Tennis Videos using Segment Models

Emmanouil Delakis 1
1 TEXMEX - Multimedia content-based indexing
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
Résumé : L'analyse automatique du contenu de la vidéo est un sujet de recherche émergent avec de nombreuses applications pratiques sur de grandes bases de données de vidéo ou sur les enregistreurs vidéo personnels. Le centre de cette étude est la construction automatique de la table des matières d'une émission de tennis en utilisant les modèles markoviens et la programmation dynamique. Motivés par le besoin de représentations multimodales plus efficaces, nous proposons l'utilisation des caractéristiques segmentales dans le cadre des modèles de segment, au lieu des caractéristiques en trames des modèles de Markov cachés. En considérant chaque scène de la vidéo comme un segment, les points de synchronisation entre différentes modalités sont étendus aux frontières de la scène, qui est l'unité thématique de base de la vidéo. Les caractéristiques visuelles venant de la vidéo diffusée et les caractéristiques auditives enregistrées dans le court sont traitées avant fusion dans leurs propres segments, avec leurs propres modèles et fréquences d'échantillonnage. Diverses techniques pour modéliser les segments sont examinées, y compris les modèles de Markov cachés de densité discrète ou continue, les modèles bigrames ou des approches connexionnistes, fonctionnant sur les caractéristiques audiovisuelles automatiquement extraites. Des modèles de segments et des modèles de Markov cachés, avec des topologies hiérarchiques ou ergodiques, sont établis et comparés sur un corpus de 15 heures de vidéos de tennis. Les paramètres des modèles sont estimés sur des données étiquetées. Selon le modèle segmentale utilisé, la fusion asynchrone avec des modèles de segments peut atteindre le même niveau de performance que les modèles de Markov cachés. La fusion des ressources textuelles de la vidéo, c'est-à-dire les annonces de points, est également considérée. Pour exploiter entièrement leur contenu sémantique sur l'évolution réelle du jeu et tenir compte des événements non reconnus, un arrangement original du décodage de Viterbi a été développé. Il produit des solutions qui sont conformes aux annonces de points et apporte ainsi une nette amélioration de la performance du système.
Document type :
Theses
Complete list of metadatas

Cited literature [119 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-00524285
Contributor : Patrick Gros <>
Submitted on : Thursday, October 7, 2010 - 2:12:04 PM
Last modification on : Friday, November 16, 2018 - 1:29:09 AM
Document(s) archivé(s) le : Monday, January 10, 2011 - 11:27:46 AM

Identifiers

  • HAL Id : tel-00524285, version 1

Citation

Emmanouil Delakis. Multimodal Structuring of Tennis Videos using Segment Models. Human-Computer Interaction [cs.HC]. Université Rennes 1, 2006. English. ⟨tel-00524285⟩

Share

Metrics

Record views

323

Files downloads

491