Human Action Recognition in Videos with Local Representation

Michał Koperski

Résumé

This thesis targets recognition of human actions in videos. Action recognition can be defined as the ability to determine whether a given action occurs in the video. This problem is complicated due to the high complexity of human actions such as appearance variation, motion pattern variation, occlusions, etc. Recent advancements in either hand-crafted or deep-learning methods significantly improved action recognition accuracy. But there are many open questions, which keep action recognition task far from being solved. Current state-of-the-art methods achieved satisfactory results mostly base on features, which focus on a local spatio-temporal neighborhood. But human actions are complex, thus the following question that should be answered is how to model a relationship between local features, especially in spatio-temporal context. In this thesis, we propose 2 methods which try to answer that challenging problem. In the first method, we propose to measure a pairwise relationship between features with Brownian Covariance. In the second method, we propose to model spatial-layout of features \wrt person bounding box, achieving better or similar results as skeleton based methods. Our methods are generic and can improve both hand-crafted and deep-learning based methods. Another open question is whether 3D information can improve action recognition. Currently, most of the state-of-the-art methods work on RGB data, which is missing 3D information. In addition, many methods use 3D information only to obtain body joints, which is still challenging to obtain. In this thesis, we show that 3D information can be used not only for joints detection. We propose a novel descriptor which introduces 3D trajectories computed on RGB-D information. Finally, we claim that ability to process a video in real-time will be a key factor in future action recognition applications. All methods proposed in this thesis are ready to work in real-time. We proved our claim empirically by building a real-time action detection system, which was successfully adapted by Toyota company in their robotic systems. In the evaluation part, we focus particularly on daily living actions -- performed by people in their daily self-care routine. In the scope of our interest are actions like eating, drinking, cooking. Recognition of such actions is particularly important for patient monitoring systems in hospitals and nursing homes. Daily living action recognition is also a key component of assistive robots. To evaluate the methods proposed in this thesis we created a large-scale dataset, which consists of 160~hours of video footage of 20~senior people. The videos were recorded in 3~different rooms by 7~RGB-D sensors. We have annotated the videos with 28 action classes. The actions in the dataset are performed in un-acted and unsupervised way, thus the dataset introduces real-world challenges, absent in many public datasets. Finally, we have also evaluated our methods on publicly available datasets: CAD60, CAD120 and MSRDailyActivity3D. Our experiments show that the methods proposed in this thesis improve state-of-the-art results.

Cette thèse étudie le problème de la reconnaissance d’actions humaines dans des vidéos. La reconnaissance peut être définie comme étant la capacité à décider si une action est présente dans une vidéo. Ce problème est difficile en raison de la complexité des actions humaines, dans la grande variété de leur apparence et de leur mouvement. Les avances récentes dans les méthodes manuelles ou par apprentissage profond ont considérablement amélioré la précision de la reconnaissance d’action. Mais de nombreuses questions restent ouvertes, ce qui rend le problème de la reconnaissance d’actions loin d’être résolu. Les méthodes actuelles basées sur les caractéristiques locales, donnent des résultats satisfaisants. Mais les actions humaines sont complexes. Ce qui nous conduit à la question suivante comment modéliser les relations entre les caractéristiques locales, dans leur contexte spatio-temporel. Dans cette thèse nous proposons 2 méthodes pour y répondre. La première modélise les relations spatio-temporelles entre les caractéristiques images utilisant la Covariance Brownianne, et la seconde modélise la disposition spatiale des caractéristiques locales à l’intérieur de la boite englobante du chaque personne. Les méthodes que nous proposons sont générales et peuvent améliorer aussi bien les méthodes manuelles que celles avec apprentissage. Une autre question ouverte est: l’information 3D peut-elle améliorer la reconnaissance d’actions? Plusieurs méthodes utilisent les informations 3D pour détecter les articulations du corps. Nous proposons de les améliorer avec un nouveau descripteur, utilisant la trajectoire 3D calculée à partir des informations RGB-D. Finalement, nous affirmons que la capacité de traiter une vidéo en temps-réel sera un facteur clé pour les futures applications de reconnaissance d’actions. Toutes les méthodes proposées dans cette thèse sont prêtes a fonctionner en temps-réel. Nous avons prouvé notre affirmation empiriquement en créant un système temps-réel de détection d’actions. Ce système à été adapté avec succès par la compagnie Toyota pour leurs systèmes robotiques. Pour l’évaluation, nous nous concentrons sur les actions quotidiennes à la maison telles que: manger, boire ou cuisiner. La reconnaissance de telles actions est importante pour le suivi des patients et pour les systèmes d’aide robotisée à domicile. Dans ce but, nous avons créé une grande base de données, qui contient 160 heures d’enregistrement de 20 personnes âgées. Les vidéos ont été enregistrées dans 3 chambres avec 7 capteurs RGB-D. Nous avons annoté ces vidéos avec 28 classes d’actions. Les actions dans la base de données sont effectuées d’une manière naturelle et non supervisée, ce qui introduit des défis manquants dans les bases de données publiques. Nous évaluons aussi nos méthodes en utilisant les bases de données publiques: CAD60, CAD120 et MSRDailyActivity3D. Les expérimentations montrent que nos méthodes améliorent les résultats de l’état de l’art.

Human Action Recognition in Videos with Local Representation

Reconnaissance d’actions humaines dans des vidéos utilisant une représentation locale

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager