Multimodal Structuring of Tennis Videos using Segment Models

Emmanouil Delakis

Résumé

Automatic video content analysis is an emerging research subject with numerous practical applications to large video databases or personal video recording systems. The focus of this study is the automatic construction of the table of contents of a tennis broadcast using Markovian models and dynamic programming. Motivated by the need for more efficient multimodal representations, the use of segmental features in the framework of Segment Models is proposed, instead of the frame-based features of Hidden Markov Models. Considering each scene of the video as a segment, the synchronization points between different modalities are extended to the scene boundaries, which is the basic thematic unit of the video. Visual features coming from the produced broadcasted video and auditory features recorded in the court are processed before fusion in their own segments, with their own sampling rates and models. Various techniques for modeling the segments are examined, including discrete or continuous density Hidden Markov Models, bigram models or connectionist scorers, operating on automatically extracted audiovisual features. Segment Models and Hidden Markov Models, with hierarchical or ergodic topolo- gies, are built and compared in a corpus of 15 hours tennis video. The model parameters are estimated on labeled data. Depending on the segmental scorer employed, asynchronous fusion with Segment Models can achieve the same level of performance as Hidden Markov Models. The fusion of the textual resources of the video, namely the score announcements, is also considered. To fully exploit their semantic content on the actual game evolution and to account for nacknowledged game events, a novel Viterbi decoding scheme is developed. It produces solutions that are consistent with the score announcements and thus yields a clear performance improvement of the system.

L'analyse automatique du contenu de la vidéo est un sujet de recherche émergent avec de nombreuses applications pratiques sur de grandes bases de données de vidéo ou sur les enregistreurs vidéo personnels. Le centre de cette étude est la construction automatique de la table des matières d'une émission de tennis en utilisant les modèles markoviens et la programmation dynamique. Motivés par le besoin de représentations multimodales plus efficaces, nous proposons l'utilisation des caractéristiques segmentales dans le cadre des modèles de segment, au lieu des caractéristiques en trames des modèles de Markov cachés. En considérant chaque scène de la vidéo comme un segment, les points de synchronisation entre différentes modalités sont étendus aux frontières de la scène, qui est l'unité thématique de base de la vidéo. Les caractéristiques visuelles venant de la vidéo diffusée et les caractéristiques auditives enregistrées dans le court sont traitées avant fusion dans leurs propres segments, avec leurs propres modèles et fréquences d'échantillonnage. Diverses techniques pour modéliser les segments sont examinées, y compris les modèles de Markov cachés de densité discrète ou continue, les modèles bigrames ou des approches connexionnistes, fonctionnant sur les caractéristiques audiovisuelles automatiquement extraites. Des modèles de segments et des modèles de Markov cachés, avec des topologies hiérarchiques ou ergodiques, sont établis et comparés sur un corpus de 15 heures de vidéos de tennis. Les paramètres des modèles sont estimés sur des données étiquetées. Selon le modèle segmentale utilisé, la fusion asynchrone avec des modèles de segments peut atteindre le même niveau de performance que les modèles de Markov cachés. La fusion des ressources textuelles de la vidéo, c'est-à-dire les annonces de points, est également considérée. Pour exploiter entièrement leur contenu sémantique sur l'évolution réelle du jeu et tenir compte des événements non reconnus, un arrangement original du décodage de Viterbi a été développé. Il produit des solutions qui sont conformes aux annonces de points et apporte ainsi une nette amélioration de la performance du système.

Multimodal Structuring of Tennis Videos using Segment Models

Structuration multimodale des vidéos de tennis en utilisant des modèles segmentaux

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager