From Images and Sounds to Face Localization and Tracking

Vincent Drouard 1
1 PERCEPTION - Interpretation and Modelling of Images and Videos
Inria Grenoble - Rhône-Alpes, LJK - Laboratoire Jean Kuntzmann, INPG - Institut National Polytechnique de Grenoble
Résumé : Dans cette thèse, nous abordons le problème de l'estimation de pose de visage dans le contexte des interactions homme-robot. Nous abordons la résolution de cette tâche à l'aide d'une approche en deux étapes. Tout d'abord nous proposons une nouvelle façon d'estimer la pose d'un visage, en apprenant un lien entre deux espaces, l'espace des paramètres de pose et un espace de grande dimension représentant les observations perçues par une caméra. L'apprentissage de ce lien se fait à l'aide d'une approche probabiliste, utilisant un mélange de regressions affines. Par rapport aux méthodes d'estimation de pose de visage déjà existantes, nous incorporons de nouvelles informations à l'espace des paramètres de pose, ces additions sont nécessaires afin de pouvoir prendre en compte la diversité des observations, comme les differents visages et expressions mais aussi les décalages entre les positions des visages détectés et leurs positions réelles, cela permet d'avoir une méthode robuste aux conditions réelles. Les évaluations ont montrées que cette méthode permettait d'avoir de meilleurs résultats que les méthodes de regression standard et des résultats similaires aux méthodes de l'état de l'art qui pour certaines utilisent plus d'informations, comme la profondeur, pour estimer la pose. Dans un second temps, nous développons un modèle temporel qui utilise les capacités des traqueurs pour combiner l'information du présent avec celle du passé. Le but à travers cela est de produire une estimation de la pose plus lisse dans le temps, mais aussi de corriger les oscillations entre deux estimations consécutives indépendantes. Le modèle proposé intègre le précédent modèle de régression dans une structure de filtrage de Kalman. Cette extension fait partie de la famille des modèles dynamiques commutatifs et garde tous les avantages du mélange de regressions affines précédent. Globalement, le modèle temporel proposé permet d'obtenir des estimations de pose plus précises et plus lisses sur une vidéo. Le modèle dynamique commutatif donne de meilleurs résultats qu'un modèle de suivi utilsant un filtre de Kalman standard. Bien qu'appliqué à l'estimation de pose de visage le modèle presenté dans cette thèse est très général et peut être utilisé pour résoudre d'autres problèmes de régressions et de suivis.
Type de document :
Thèse
Computer Vision and Pattern Recognition [cs.CV]. Université Grenoble Alpes, 2017. English
Liste complète des métadonnées

Littérature citée [52 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/tel-01667740
Contributeur : Team Perception <>
Soumis le : mardi 19 décembre 2017 - 16:08:43
Dernière modification le : jeudi 11 janvier 2018 - 06:22:01

Fichier

thesis_vdrouard.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01667740, version 1

Collections

Citation

Vincent Drouard. From Images and Sounds to Face Localization and Tracking. Computer Vision and Pattern Recognition [cs.CV]. Université Grenoble Alpes, 2017. English. 〈tel-01667740〉

Partager

Métriques

Consultations de la notice

158

Téléchargements de fichiers

27