Human Action Recognition in Videos with Local Representation

Michał Koperski 1
1 STARS - Spatio-Temporal Activity Recognition Systems
CRISAM - Inria Sophia Antipolis - Méditerranée
Résumé : Cette thèse étudie le problème de la reconnaissance d’actions humaines dans des vidéos. La reconnaissance peut être définie comme étant la capacité à décider si une action est présente dans une vidéo. Ce problème est difficile en raison de la complexité des actions humaines, dans la grande variété de leur apparence et de leur mouvement. Les avances récentes dans les méthodes manuelles ou par apprentissage profond ont considérablement amélioré la précision de la reconnaissance d’action. Mais de nombreuses questions restent ouvertes, ce qui rend le problème de la reconnaissance d’actions loin d’être résolu. Les méthodes actuelles basées sur les caractéristiques locales, donnent des résultats satisfaisants. Mais les actions humaines sont complexes. Ce qui nous conduit à la question suivante comment modéliser les relations entre les caractéristiques locales, dans leur contexte spatio-temporel. Dans cette thèse nous proposons 2 méthodes pour y répondre. La première modélise les relations spatio-temporelles entre les caractéristiques images utilisant la Covariance Brownianne, et la seconde modélise la disposition spatiale des caractéristiques locales à l’intérieur de la boite englobante du chaque personne. Les méthodes que nous proposons sont générales et peuvent améliorer aussi bien les méthodes manuelles que celles avec apprentissage. Une autre question ouverte est: l’information 3D peut-elle améliorer la reconnaissance d’actions? Plusieurs méthodes utilisent les informations 3D pour détecter les articulations du corps. Nous proposons de les améliorer avec un nouveau descripteur, utilisant la trajectoire 3D calculée à partir des informations RGB-D. Finalement, nous affirmons que la capacité de traiter une vidéo en temps-réel sera un facteur clé pour les futures applications de reconnaissance d’actions. Toutes les méthodes proposées dans cette thèse sont prêtes a fonctionner en temps-réel. Nous avons prouvé notre affirmation empiriquement en créant un système temps-réel de détection d’actions. Ce système à été adapté avec succès par la compagnie Toyota pour leurs systèmes robotiques. Pour l’évaluation, nous nous concentrons sur les actions quotidiennes à la maison telles que: manger, boire ou cuisiner. La reconnaissance de telles actions est importante pour le suivi des patients et pour les systèmes d’aide robotisée à domicile. Dans ce but, nous avons créé une grande base de données, qui contient 160 heures d’enregistrement de 20 personnes âgées. Les vidéos ont été enregistrées dans 3 chambres avec 7 capteurs RGB-D. Nous avons annoté ces vidéos avec 28 classes d’actions. Les actions dans la base de données sont effectuées d’une manière naturelle et non supervisée, ce qui introduit des défis manquants dans les bases de données publiques. Nous évaluons aussi nos méthodes en utilisant les bases de données publiques: CAD60, CAD120 et MSRDailyActivity3D. Les expérimentations montrent que nos méthodes améliorent les résultats de l’état de l’art.
Liste complète des métadonnées

Littérature citée [142 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/tel-01648968
Contributeur : Michal Koperski <>
Soumis le : lundi 27 novembre 2017 - 10:23:44
Dernière modification le : jeudi 11 janvier 2018 - 16:22:45

Fichier

koperski_thesis.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01648968, version 1

Collections

Citation

Michał Koperski. Human Action Recognition in Videos with Local Representation. Computer Vision and Pattern Recognition [cs.CV]. Universite Cote d'Azur, 2017. English. 〈tel-01648968〉

Partager

Métriques

Consultations de la notice

117

Téléchargements de fichiers

24