Learning to annotate dynamic video scenes

Résumé : Les vidéos représentent des scènes complexes, comprenant des humains et des objets, illustrant les interactions entre ces derniers et leur enviorment. Les relations entre agents sont susceptibles d'évoluer dans le temps et les agents peuvent effectuer des ``actions''. La compréhension automatique des vidéos nécessite de correctement localiser les agents à la fois dans l'espace et dans le temps. De plus, il faut décrire les relations entre ces agents et leur evolution temporelle. La vision par ordinateur repose souvent sur l'apprentissage supervisé, où des échantillons ettiquetés permettent d'apprendre les parametres d'un modèle. Cependant, pour des données aussi riches que la vidéo, l'ettiquetage est coûteux et compliqué. Les étiquettes symboliques ne sont pas suffisament riches pour encoder les interactions entre personnes, objets et scènes. Le langage naturel offre une puissance descriptive qui en fait un modalité pratique pour annoter des données vidéo. Nous proposons de mettre l'accent sur la modélisation conjointe de vidéo et de texte. Nous explorons des modèles joints dans le contexte de films avec leurs scripts de tournage. Le principal défi auquel nous sommes confrontés est que les scripts de films ne fournissent pas de localisation spatiale et temporelle des objets et des actions. Nous présentons d'abord un modèle permettant d'associer automatiquement des étiquettes de personne et d'action aux detections de personnes dans les films. Le modèle utilise une fonction de coût de clustering discriminatif, et une supervision faible sous la forme de contraintes que nous obtenons à partir de scripts. Cette approche nous permet de localiser spatialement et temporelement les agents et les actions qu'ils effectuent dans la video, tel que décrit dans le script. Cependant, la localisation temporelle et spatiale est principalement due à l' utilisation de détections de personnes. Dans une seconde contribution, nous décrivons un modèle permettant d'aligner des phrases avec les images de la vidéo. La correspondance temporelle est obtenue en utilisant un modèle discriminatif sous contraintes d'ordre temporel. Ce modèle d'alignement est appliqué à deux ensembles de données : un composé de vidéos associées à un flux d'étiquettes; un autre composé de vidéos et descriptions sous la forme d'étapes (recettes de cuisines par exemple).
Type de document :
Thèse
Computer Vision and Pattern Recognition [cs.CV]. Ecole normale supérieure, 2016. English
Liste complète des métadonnées

https://hal.inria.fr/tel-01364560
Contributeur : Piotr Bojanowski <>
Soumis le : lundi 12 septembre 2016 - 16:27:10
Dernière modification le : jeudi 26 avril 2018 - 10:29:09
Document(s) archivé(s) le : mardi 13 décembre 2016 - 15:43:25

Fichiers

Identifiants

  • HAL Id : tel-01364560, version 1

Collections

Citation

Piotr Bojanowski. Learning to annotate dynamic video scenes. Computer Vision and Pattern Recognition [cs.CV]. Ecole normale supérieure, 2016. English. 〈tel-01364560〉

Partager

Métriques

Consultations de la notice

424

Téléchargements de fichiers

505