Human action recognition in videos

Piotr Tadeusz Biliński

Résumé

This thesis targets the automatic recognition of human actions in videos. Human action recognition is defined as a requirement to determine what human actions occur in videos. This problem is particularly hard due to enormous variations in visual and motion appearance of people and actions, camera viewpoint changes, moving background, occlusions, noise, and enormous amount of video data. Firstly, we review, evaluate, and compare the most popular and the most prominent state-of-the-art techniques, and we propose our action recognition framework based on local features, which we use throughout this thesis work embedding the novel algorithms. Moreover, we introduce a new dataset (CHU Nice Hospital) with daily self care actions of elder patients in a hospital. Then, we propose two local spatio-temporal descriptors for action recognition in videos. The first descriptor is based on a covariance matrix representation, and it models linear relations between low-level features. The second descriptor is based on a Brownian covariance, and it models all kinds of possible relations between low-level features. Then, we propose three higher-level feature representations to go beyond the limitations of the local feature encoding techniques. The first representation is based on the idea of relative dense trajectories. We propose an object-centric local feature representation of motion trajectories, which allows to use the spatial information by a local feature encoding technique. The second representation encodes relations among local features as pairwise features. The main idea is to capture the appearance relations among features (both visual and motion), and use geometric information to describe how these appearance relations are mutually arranged in the spatio-temporal space. The third representation captures statistics of pairwise co-occurring visual words within multi-scale feature-centric neighbourhoods. The proposed contextual features based representation encodes information about local density of features, local pairwise relations among the features, and spatio-temporal order among features. Finally, we show that the proposed techniques obtain better or similar performance in comparison to the state-of-the-art on various, real, and challenging human action recognition datasets (Weizmann, KTH, URADL, MSR Daily Activity 3D, HMDB51, and CHU Nice Hospital).

Cette thèse traite de la reconnaissance automatique d'action humaine dans des vidéos. La reconnaissance d'action humaine est indispensable pour déterminer quelles actions humaines se produisent dans des vidéos. Ce problème est particulièrement difficile en raison d'énormes variations dans les aspects visuels et de mouvement des personnes et des actions, les changements de point de vue de la caméra, le fond mobile, des occlusions, la présence de bruit, ainsi que l'énorme quantité de données vidéos. Tout d'abord, nous passons en revue, évaluons et comparons les techniques les plus importantes et les plus populaires de l'état de l'art pour la reconnaissance d'action, ensuite, nous proposons une plateforme basée sur des caractéristiques locales, que nous utilisons tout au long de ce travail de thèse pour étudier de nouveaux algorithmes. En plus, nous introduisons une nouvelle base de données (Hôpital CHU de Nice) avec des actions de la vie quotidienne de patients âgés dans cet hôpital. Ensuite, nous proposons deux descripteurs spatio-temporels locaux pour la reconnaissance d'action dans les vidéos. Le premier descripteur est basé sur une représentation des matrices de covariance, modélisant les relations linéaires entre les caractéristiques bas niveaux. Le deuxième descripteur est basé sur les covariances browniennes, et modélise tous les types de relations possibles entre les caractéristiques bas niveaux. Après, nous proposons trois représentations de caractéristiques de hauts niveaux pour dépasser les limites des techniques utilisant l'encodage des sacs de mots. La première représentation est basée sur le principe des trajectoires relatives denses. Nous proposons une représentation objet-centrée des caractéristiques locales des trajectoires de mouvement, ce qui permet d'utiliser l'information spatiale par une technique de codage des caractéristiques locales. La deuxième représentation encode les relations entre les caractéristiques locales par paires. Le principe est dextraire les relations d'apparence entre les caractéristiques (à la fois visuelles et de mouvement), et dutiliser l'information géométrique pour décrire la façon dont ces relations d'apparence sont disposées mutuellement dans l'espace spatio-temporel. La troisième représentation calcule les statistiques des paires concomitantes des mots visuels dans les voisinages multi-échelles centrées les caractéristiques. La représentation basée sur les caractéristiques contextuelles proposées encode linformation sur la densité locale de ces caractéristiques, les relations entre les paires des caractéristiques locales et leur ordre spatio-temporel. Finalement, les techniques proposées permettent d'obtenir une performance meilleure ou semblable par rapport à l'état de l'art, sur des bases de données représentant une grande diversité dactions humaines (Weizmann, KTH, URADL, MSR Daily Activity 3D, HMDB51, et Hôpital CHU de Nice).

Human action recognition in videos

Reconnaissance d’action humaine dans des vidéos

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager