Semantic Description of Humans in Images - Inria - Institut national de recherche en sciences et technologies du numérique Access content directly
Theses Year : 2012

Semantic Description of Humans in Images

Description Sémantique des Humains présents dans des Images Vidéo

Abstract

In the present thesis we are interested in semantic description of humans in images. We propose to describe humans with the help of (i) semantic attributes e.g. male or female, wearing a tee-shirt, (ii) actions e.g. riding a horse, running and (iii) facial expressions e.g. smiling, angry. First, we propose a new image representation to better exploit the class specific spatial information. The standard representation \ie spatial pyramids, has two shortcomings. It assumes that the distribution of spatial information (i) is uniform and (ii) is same for all tasks. We address these shortcomings by learning the discriminative spatial information for a specific task. Further, we propose a model that adapts the spatial information for each image for a given task. This lends more flexibility to the model and allows for misalignments of discriminative regions e.g. the legs may be at different positions, in different images for running class. Finally, we propose a new descriptor for facial expression analysis. We work in the space of intensity differences of local pixel neighborhoods and propose to learn the quantization of the space and use higher order statistics of the difference vector to obtain more expressive descriptors. We introduce a challenging dataset of human attributes containing 9344 human images, sourced from the internet, with annotations for 27 semantic attributes based on sex, pose, age and appearance/clothing. We validate the proposed methods on our dataset of human attributes as well as on publicly available datasets of human actions, fine grained classification involving human actions and facial expressions. We also report results on related computer vision datasets, for scene recognition, object image classification and texture categorization, to highlight the generality of our contributions.
Dans cette thèse, nous nous intéressons à la description sémantique des personnes dans les images en termes (i) d'attributs sémantiques (sexe, âge), (ii) d'actions (court, saute) et d'expressions faciales (sourire). Tout d'abord, nous proposons une nouvelle représentation des images permettant d'exploiter l'information spatiale spécifique à chaque classe. La représentation standard, les pyramides spatiales, suppose que la distribution spatiale de l'information est (i) uniforme et (ii) la même pour toutes les tâches. Au contraire notre représentation se propose d'apprendre l'information spatiale discriminante pour une tâche spécifique. De plus, nous proposons un modèle qui adapte l'information spatiale à chaque image. Enfin, nous proposons un nouveau descripteur pour l'analyse des expressions faciales. Nous apprenons un partitionnement de l'espace des différences locales d'intensité à partir duquel nous calculons des statistiques d'ordre supérieur pour obtenir des descripteurs plus expressifs. Nous proposons également une nouvelle base de données de 9344 images de personnes collectées sur l'Internet avec les annotations sur 27 attributs sémantiques relatifs au sexe, à l'âge, à l'apparence et à la tenue vestimentaire des personnes. Nous validons les méthodes proposées sur notre base de données ainsi que sur des bases de données publiques pour la reconnaissance d'actions et la reconnaissance d'expressions. Nous donnons également nos résultats sur des bases de données pour la reconnaissance de scènes, le classement d'images d'objets et la reconnaissance de textures afin de montrer le caractère général de nos contributions.
Fichier principal
Vignette du fichier
thesis.pdf (4.65 Mo) Télécharger le fichier
Loading...

Dates and versions

tel-00767699 , version 1 (20-12-2012)

Identifiers

  • HAL Id : tel-00767699 , version 1

Cite

Gaurav Sharma. Semantic Description of Humans in Images. Computer Vision and Pattern Recognition [cs.CV]. Université de Caen, 2012. English. ⟨NNT : ⟩. ⟨tel-00767699⟩
546 View
465 Download

Share

Gmail Facebook X LinkedIn More