Learning to annotate dynamic video scenes - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Thèse Année : 2016

Learning to annotate dynamic video scenes

Annotation automatique de scenes vidéo

Résumé

Videos often depict complex scenes including people, objects and interactions between these and the environment. Relations between agents are likely to evolve in time and agents can perform actions. The automatic understanding of video data is complicated as it requires to properly localize the agents both in space and time. Moreover, one need to automatically describe the relations between agents and how these evolve in time. Modern approaches to computer vision heavily rely on supervised learning, where annotated samples are provided to the algorithm to learn parametric models. However, for rich data such as video, the labelling process starts to be costly and complicated. Also, symbolic labels are not sufficient to encode the complex interactions between people, objects and scenes. Natural language offers much richer descriptive power and is thus a practical modality to annotated video data. Therefore, in this thesis we propose to focus on jointly modeling video and text. We explore such joint models in the context of movies with associated movie scripts, which provide accurate descriptions of the pictured events. The main challenge that we face is that movie scripts do not provide precise temporal and spatial localization of objects and actions. We first present a model for automatically annotating person tracks in movies with person and action labels. The model uses a discriminative clustering cost function, and weak supervision in the form of constraints that we obtain from scripts. This approach allows us to spatially and temporally localize agents and the actions they perform, as described in the script, in the video. However, the temporal and spatial localization is due to the use of person detection tracks. Then, in a second contribution, we describe a model for aligning sentences with frames of the video. The optimal temporal correspondence is again obtained using a discriminative model under temporal ordering constraints. This alignment model is applied on two datasets: one composed of videos associated with a stream of symbolic labels; a second one composed of videos with textual descriptions in the form of key steps towards a goal (cooking recipes for instance).
Les vidéos représentent des scènes complexes, comprenant des humains et des objets, illustrant les interactions entre ces derniers et leur environnement. Les relations entre agents sont susceptibles d’évoluer dans le temps et les agents peuvent effectuer des “actions”. La compréhension automatique des vidéos nécessite de correctement localiser les agents à la fois dans l’espace et dans le temps. De plus, il faut décrire les relations entre ces agents et leur évolution temporelle. La vision par ordinateur repose souvent sur l’apprentissage supervisé, où des échantillons étiquetés permettent d’apprendre les paramètres d’un modèle. Cependant, pour des données aussi riches que la vidéo, l’étiquetage est coûteux et compliqué. Les étiquettes symboliques ne sont pas suffisamment riches pour encoder les interactions entre personnes, objets et scènes. Le langage naturel offre une puissance descriptive qui en fait une modalité pratique pour annoter des données vidéo. Nous proposons de mettre l’accent sur la modélisation conjointe de vidéo et de texte. Nous explorons des modèles joints dans le contexte de films avec leurs scripts de tournage. Le principal défi auquel nous sommes confrontés est que les scripts de films ne fournissent pas de localisation spatiale et temporelle des objets et des actions. Nous présentons d’abord un modèle permettant d’associer automatiquement des étiquettes de personne et d’action aux détections de personnes dans les films. Le modèle utilise une fonction de coût de clustering discriminatif et une supervision faible sous la forme de contraintes que nous obtenons à partir de scripts. Cette approche nous permet de localiser spatialement et temporellement les agents et les actions qu’ils effectuent dans la vidéo, tel que décrit dans le script. Cependant, la localisation temporelle et spatiale est principalement due à l’utilisation de détections de personnes. Dans une seconde contribution, nous décrivons un modèle permettant d’aligner des phrases avec les images de la vidéo. La correspondance temporelle est obtenue en utilisant un modèle discriminatif sous contraintes d’ordre temporel. Ce modèle d’alignement est appliqué à deux ensembles de données : un composé de vidéos associées à un flux d’étiquettes ; un autre composé de vidéos et descriptions sous la forme d’étapes (recettes de cuisines par exemple).
Fichier principal
Vignette du fichier
bojanowski-these.pdf (15.02 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-01364560 , version 1 (12-09-2016)
tel-01364560 , version 2 (29-04-2022)

Identifiants

  • HAL Id : tel-01364560 , version 2

Citer

Piotr Bojanowski. Learning to annotate dynamic video scenes. Computer Vision and Pattern Recognition [cs.CV]. Université Paris sciences et lettres, 2016. English. ⟨NNT : 2016PSLEE056⟩. ⟨tel-01364560v2⟩
476 Consultations
489 Téléchargements

Partager

Gmail Facebook X LinkedIn More