Structured modeling and recognition of human actions in video

Guilhem Chéron

Résumé

Automatic video understanding is expected to impact our lives through many applications such as autonomous driving, domestic robots, content search and filtering, gaming, defense or security. Video content is growing faster each year, for example on platforms such as YouTube, Twitter or Facebook. Automatic analysis of this data is required to enable future applications. Video analysis, especially in uncontrolled environments, presents several difficulties such as intraclass variability (samples from the same concept appear very differently) or inter-class confusion (examples from two different activities look similar). While these problems can be addressed with the supervised learning algorithms, fully-supervised methods are often associated with high annotation cost. Depending on both the task and the level of required supervision, the annotation can be prohibitive. For example, in action localization, a fully-supervised approach demands person bounding boxes to be annotated at every frames where an activity is performed. The cost of getting such annotation prohibits scalability and limits the number of training samples. Another issue is finding a consensus between annotators, which leads to labeling ambiguities (where does the action start? where does it end? what should be included in the bounding box? etc.). This thesis addresses above problems in the context of two tasks, namely human action classification and localization. The former aims at recognizing the type of activity performed in a short video clip trimmed to the temporal extent of the action. The latter additionally extracts the space-time locations of potentially multiple activities in much longer videos. Our approach to action classification leverages information from human pose and integrates it with appearance and motion descriptors for improved performance. Our approach to action localization models the temporal evolution of actions in the video with a recurrent network trained on the level of person tracks. Finally, the third method in this thesis aims to avoid a prohibitive cost of video annotation and adopts discriminative clustering to analyze and combine different levels of supervision.

La compréhension automatique de vidéos devrait impacter notre vie de tous les jours dans de nombreux domaines comme la conduite autonome, les robots domestiques, la recherche et le filtrage de contenu, les jeux vidéo, la défense ou la sécurité. Le nombre de vidéos croît plus vite chaque année, notamment sur les plateformes telles que YouTube, Twitter ou Facebook. L’analyse automatique de ces données est indispensable pour permettre à de nouvelles applications de voir le jour. L’analyse vidéo, en particulier en environnement non contrôlé, se heurte à plusieurs problèmes comme la variabilité intra-classe (les échantillons d’un même concept paraissent très différents) ou la confusion inter-classe (les exemples provenant de deux activités distinctes se ressemblent). Bien que ces difficultés puissent être traitées via des algorithmes d’apprentissage supervisé, les méthodes pleinement supervisées sont souvent synonymes d’un coût d’annotation élevé. Dépendant à la fois de la tâche à effectuer et du niveau de supervision requis, la quantité d’annotations nécessaire peut être prohibitive. Dans le cas de la localisation d’actions, une approche pleinement supervisée nécessite les boîtes englobantes de l’acteur à chaque image où l’action est effectuée. Le coût associé à l’obtention d’un telle annotation empêche le passage à l’échelle et limite le nombre d’échantillons d’entraînement. Trouver un consensus entre les annotateurs est également difficile et mène à des ambiguïtés dans l’étiquetage (Où commence l’action ? Quand se termine-t-elle ? Que doit inclure la boîte englobante ? etc.). Cette thèse adresse les problèmes évoqués ci-dessus dans le contexte de deux tâches, la classification et la localisation d’actions humaines. La classification consiste à reconnaître l’activité effectuée dans une courte vidéo limitée à la durée de l’action. La localisation a pour but de détecter en temps et dans l’espace des activités effectuées dans de plus longues vidéos. Notre approche pour la classification d’actions tire parti de l’information contenue dans la posture humaine et l’intègre avec des descripteurs d’apparence et de mouvement afin d’améliorer les performances. Notre approche pour la localisation d’actions modélise l’évolution temporelle des actions à l’aide d’un réseau récurrent entraîné à partir de suivis de personnes. Enfin, la troisième méthode étudiée dans cette thèse a pour but de contourner le coût prohibitif des annotations de vidéos et utilise le regroupement discriminatoire pour analyser et combiner différents types de supervision.

Structured modeling and recognition of human actions in video

Modélisation structurée et reconnaissance des actions humaines dans les vidéos

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager