Human action recognition in videos with local representation

Michal Koperski 1
1 STARS - Spatio-Temporal Activity Recognition Systems
CRISAM - Inria Sophia Antipolis - Méditerranée
Résumé : Cette thèse étudie le problème de la reconnaissance d’actions humaines dans des vidéos. La reconnaissance d’action peut être définie comme étant la capacité à décider si une action est présente due une vidéo. Ce problème est difficile en raison de la complexité des actions humaines, dans la grande variété de leur apparence et de leur mouvement. Les avancées récentes dans les méthodes manuelles ou par apprentissage profond ont considérablement amélioré la précision de la reconnaissance d’action. Mais de nombreuses questions restent ouvertes, ce qui rend le problème de la reconnaissance d’actions loin d’être résolu. Les méthodes actuelles basées sur les caractéristiques locales, donnent des résultats satisfaisants. Mais les actions humaines sont complexes, ce qui nous conduit à la question suivante : comment modéliser les relations entre les caractéristiques locales dans leur contexte spatiotemporel ? Dans cette thèse nous proposons 2 méthodes pour y répondre. La première modélise les relations spatio-temporelles entre les caractéristiques images utilisant la Covariance Brownienne, et la seconde modélise la disposition spatiale des caractéristiques locales à l’intérieur de la boite englobante de chaque personne. Les méthodes que nous proposons sont générales et peuvent améliorer aussi bien les méthodes manuelles que celles avec apprentissage. Une autre question ouverte est : l’information 3D peut-elle améliorer la reconnaissance d’actions ? Plusieurs méthodes utilisent les informations 3D pour détecter les articulations du corps. Nous proposons de les améliorer avec un nouveau descripteur, utilisant la trajectoire 3D calculée à partir des informations RGB-D. Finalement, nous affirmons que la capacité de traiter une vidéo en temps-réel sera un facteur clé pour les futures applications de reconnaissance d’actions. Toutes les méthodes proposées dans cette thèse sont prêtes à fonctionner en temps-réel. Nous avons prouvé notre affirmation empiriquement en créant un système temps-réel de détection d’actions. Ce système a été adapté avec succès par la compagnie Toyota pour leurs systèmes robotiques. Pour l’évaluation, nous nous concentrons sur les actions quotidiennes à la maison telles que : manger, boire ou cuisiner. La reconnaissance de telles actions est importante pour le suivi des patients à l’hôpital et pour les systèmes d’aide robotisée à domicile. Dans ce but, nous avons créé une grande base de données, qui contient 160 heures d’enregistrement de 20 personnes âgées. Les vidéos ont été enregistrées dans 3 chambres avec7 capteurs RGB-D. Nous avons annoté ces vidéos avec 28 classes d’actions. Les actions dans la base de données sont effectuées d’une manière naturelle et non supervisée, ce qui introduit des défis manquants dans les bases de données publiques. Nous évaluons aussi nos méthodes en utilisant les bases de données publiques : CAD60, CAD120 et MSRDailyActivity3D. Les expérimentations montrent que nos méthodes améliorent les résultats de l’état de l’art.
Type de document :
Thèse
Computer Vision and Pattern Recognition [cs.CV]. Université Côte d'Azur, 2017. English. 〈NNT : 2017AZUR4096〉
Liste complète des métadonnées

Littérature citée [125 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/tel-01648968
Contributeur : Abes Star <>
Soumis le : vendredi 9 février 2018 - 09:49:08
Dernière modification le : mercredi 10 octobre 2018 - 10:09:35

Fichier

2017AZUR4096.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01648968, version 2

Collections

Citation

Michal Koperski. Human action recognition in videos with local representation. Computer Vision and Pattern Recognition [cs.CV]. Université Côte d'Azur, 2017. English. 〈NNT : 2017AZUR4096〉. 〈tel-01648968v2〉

Partager

Métriques

Consultations de la notice

392

Téléchargements de fichiers

975