Image Representations for Ranking and Classification - Inria - Institut national de recherche en sciences et technologies du numérique Access content directly
Theses Year : 2011

Image Representations for Ranking and Classification

Représentations d'images pour la recherche et la classification d'images

Abstract

This thesis concerns the tasks of image re-ranking and image classification. These tasks are solved by learning statistical models given a representation of visual content of the image and a similarity measure between images. Here we aim to improve performance of the tasks by extending the bag-of-words image representation, while using existing statistical models and similarity measures between images. We adapt the image representation according to a given task. First we explore the task of image re-ranking, whose goal is to re-order the images retrieved by a text query such that images relevant to a query are ranked above non-relavant ones. Inspired by text re-ranking methods we developed a query-relative image representation that depends on the visual content of the image, but also on the query used to retrieve it. Next, we adapt the representation for the task of image classification, which aims to assign one or more labels to an image that is related to the content of the image. We have adapted the representation by learning a visual vocabulary specifically for the classification task. We have also introduced a new representation that encodes the information about spatial layout of image parts in much more compact manner than currently used representations that encode the spatial layout. All developed image representations are compact, fast to construct and already perform very good with linear models. We show marked improvements on several stan- dard and challenging datasets with respect to state-of-art-methods. For image classification and image re-ranking tasks we have shown that adapting the representation to the task improves the performance.
Cette thèse se concerne avec de tâches de la recherche et la classification d'images. Ces tâches sont résolues par l'apprentissage des modèles statistiques donnée une représentation du contenu visuel de l'image et une mesure de ressemblance entre les images. Ici nous visons à améliorer les performances du tâches en étendant le sac-de-mots représentation de l'image, tout en utilisant modèles statistiques et des mesures de similarité entre les images déjà existants. Nous adaptons la représentation d'image en fonction d'une tâche donnée. Nous avons d'abord explorer la tâche de reclassement d'images, en contexte de la recherche d'images, dont le but est de trier les images récupérées par une requête textuelle afin que les images pertinentes pour ce requête sont classés au-dessus les autres images. Inspiré par le méthodes de reclassement de documents textuelles nous avons développé une représentation qui dépend du contenu visuel de l'image, mais également sur la requête textuelle utilisée pour récupérer l'image. Ensuite, nous adaptons la représentation pour la tâche de classification d'images, qui vise à attribuer une ou plusieurs étiquettes d'une image liée à la contenu visuel de l'image. Nous avons adaptée de la représentation en apprenant un vocabulaire visuel, spécifiquement pour la tâche de classification. Nous avons également introduit une nouvelle représentation qui encode les informations sur la disposition spatiale des parties d'image, de manière beaucoup plus compacte que les représentations actuellement utilisés pour codage de l'agencement spatial. Toutes les représentations développées sont compacts, rapides à construire et obtient bons résultats en utilisent des modèles linéaires. Nous montrons des améliorations sur plusieurs bases des images complexes en comparaison avec des méthodes de l'état de l'art. Pour les tâches de recherche et classification d'images nous avons montré que l'adaptation de la représentation à la tâche améliore les performances.
Fichier principal
Vignette du fichier
thesis.pdf (47.68 Mo) Télécharger le fichier
Loading...

Dates and versions

tel-00650998 , version 1 (12-12-2011)

Identifiers

  • HAL Id : tel-00650998 , version 1

Cite

Josip Krapac. Image Representations for Ranking and Classification. Computer Vision and Pattern Recognition [cs.CV]. Université de Caen, 2011. English. ⟨NNT : ⟩. ⟨tel-00650998⟩
586 View
830 Download

Share

Gmail Facebook X LinkedIn More