Temporal Localization of Actions with Actoms

Adrien Gaidon 1, 2, * Zaid Harchaoui 1 Cordelia Schmid 1
* Auteur correspondant
1 LEAR - Learning and recognition in vision
Inria Grenoble - Rhône-Alpes, LJK - Laboratoire Jean Kuntzmann, INPG - Institut National Polytechnique de Grenoble
Résumé : Cet article s'intéresse au problème de la détection temporelle d'actions, comme "ouvrir une porte", dans des bases de données contenant des heures de vidéo. Nous proposons un modèle basé sur des suites d'actions atomiques, appelées "actoms". Ces actoms sont des sous-événements interprétables qui caractérisent l'action à modéliser. Notre modèle, nommé "Actom Sequence Model" (ASM), décrit la structure temporelle d'une action par le biais d'une suite d'histogrammes de descripteurs locaux localisés temporellement. Cette représentation est une extension flexible, parcimonieuse, discriminative et structurée du populaire "sac de mots visuels". La période d'apprentissage nécessite l'annotation manuelle d'actoms, sans que cela ne soit requis à l'étape de détection. En effet, les actoms de nouvelles vidéos sont automatiquement détectés à l'aide d'un modèle non-paramétrique de la structure temporelle d'une action, estimé à partir des exemples d'apprentissage. Nous présentons des résultats expérimentaux sur deux bases de données récentes pour la détection temporelle d'actions: "Coffee and Cigarettes" et "DLSBP". De plus, nous adaptons notre approche au problème de classification par détection et démontrons ses performances sur la base "Hollywood 2". Nos résultats montrent que l'utilisation d'ASM améliore les performances par rapport à l'état de l'art et par rapport à l'approche par fenêtre glissante avec sac de mots, couramment utilisée en détection.
Type de document :
Rapport
[Research Report] RR-7930, INRIA. 2012
Liste complète des métadonnées

Littérature citée [76 références]  Voir  Masquer  Télécharger


https://hal.inria.fr/hal-00687312
Contributeur : Thoth Team <>
Soumis le : lundi 21 janvier 2013 - 11:38:23
Dernière modification le : mercredi 11 avril 2018 - 01:58:53
Document(s) archivé(s) le : lundi 22 avril 2013 - 03:52:36

Fichiers

RR-7930.pdf
Accord explicite pour ce dépôt

Identifiants

  • HAL Id : hal-00687312, version 2

Collections

Citation

Adrien Gaidon, Zaid Harchaoui, Cordelia Schmid. Temporal Localization of Actions with Actoms. [Research Report] RR-7930, INRIA. 2012. 〈hal-00687312v2〉

Partager

Métriques

Consultations de la notice

829

Téléchargements de fichiers

619