Human action recognition in videos

Piotr Tadeusz Biliński 1
1 STARS - Spatio-Temporal Activity Recognition Systems
CRISAM - Inria Sophia Antipolis - Méditerranée
Résumé : Cette thèse traite de la reconnaissance automatique d'action humaine dans des vidéos. La reconnaissance d'action humaine est indispensable pour déterminer quelles actions humaines se produisent dans des vidéos. Ce problème est particulièrement difficile en raison d'énormes variations dans les aspects visuels et de mouvement des personnes et des actions, les changements de point de vue de la caméra, le fond mobile, des occlusions, la présence de bruit, ainsi que l'énorme quantité de données vidéos. Tout d'abord, nous passons en revue, évaluons et comparons les techniques les plus importantes et les plus populaires de l'état de l'art pour la reconnaissance d'action, ensuite, nous proposons une plateforme basée sur des caractéristiques locales, que nous utilisons tout au long de ce travail de thèse pour étudier de nouveaux algorithmes. En plus, nous introduisons une nouvelle base de données (Hôpital CHU de Nice) avec des actions de la vie quotidienne de patients âgés dans cet hôpital. Ensuite, nous proposons deux descripteurs spatio-temporels locaux pour la reconnaissance d'action dans les vidéos. Le premier descripteur est basé sur une représentation des matrices de covariance, modélisant les relations linéaires entre les caractéristiques bas niveaux. Le deuxième descripteur est basé sur les covariances browniennes, et modélise tous les types de relations possibles entre les caractéristiques bas niveaux. Après, nous proposons trois représentations de caractéristiques de hauts niveaux pour dépasser les limites des techniques utilisant l'encodage des sacs de mots. La première représentation est basée sur le principe des trajectoires relatives denses. Nous proposons une représentation objet-centrée des caractéristiques locales des trajectoires de mouvement, ce qui permet d'utiliser l'information spatiale par une technique de codage des caractéristiques locales. La deuxième représentation encode les relations entre les caractéristiques locales par paires. Le principe est dextraire les relations d'apparence entre les caractéristiques (à la fois visuelles et de mouvement), et dutiliser l'information géométrique pour décrire la façon dont ces relations d'apparence sont disposées mutuellement dans l'espace spatio-temporel. La troisième représentation calcule les statistiques des paires concomitantes des mots visuels dans les voisinages multi-échelles centrées les caractéristiques. La représentation basée sur les caractéristiques contextuelles proposées encode linformation sur la densité locale de ces caractéristiques, les relations entre les paires des caractéristiques locales et leur ordre spatio-temporel. Finalement, les techniques proposées permettent d'obtenir une performance meilleure ou semblable par rapport à l'état de l'art, sur des bases de données représentant une grande diversité dactions humaines (Weizmann, KTH, URADL, MSR Daily Activity 3D, HMDB51, et Hôpital CHU de Nice).
Type de document :
Thèse
Other [cs.OH]. Université Nice Sophia Antipolis, 2014. English. < NNT : 2014NICE4125 >
Liste complète des métadonnées


https://tel.archives-ouvertes.fr/tel-01134481
Contributeur : Abes Star <>
Soumis le : lundi 23 mars 2015 - 15:52:05
Dernière modification le : mercredi 5 juillet 2017 - 01:09:34
Document(s) archivé(s) le : jeudi 2 juillet 2015 - 06:30:27

Fichier

2014NICE4125.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01134481, version 1

Collections

Citation

Piotr Tadeusz Biliński. Human action recognition in videos. Other [cs.OH]. Université Nice Sophia Antipolis, 2014. English. < NNT : 2014NICE4125 >. <tel-01134481>

Partager

Métriques

Consultations de
la notice

674

Téléchargements du document

1710