New methods for image classification, image retrieval and semantic correspondence

Rafael Sampaio de Rezende 1, 2
1 WILLOW - Models of visual object recognition and scene understanding
DI-ENS - Département d'informatique de l'École normale supérieure, Inria de Paris
2 SIERRA - Statistical Machine Learning and Parsimony
DI-ENS - Département d'informatique de l'École normale supérieure, ENS Paris - École normale supérieure - Paris, Inria Paris-Rocquencourt, CNRS - Centre National de la Recherche Scientifique : UMR8548
Résumé : Le problème de représentation d’image est au coeur du domaine de vision. Le choix de représentation d’une image change en fonction de la tâche que nous voulons étudier. Un problème de recherche d’image dans des grandes bases de données exige une représentation globale compressée, alors qu’un problème de segmentation séantique nécessite une carte de partitionnement de ses pixels. Les techniques d’apprentissage statisque sont l’outil principal pour la construction de ces représentations. Dans ce manuscrit, nous abordons l’apprentissage des représentations visuels dans trois problèmes différents: la recherche d’image, la correspondance sémantique et classification d’image. Premièrement, nous étudions la représentation vectorielle de Fisher et sa dépendence sur le modèle de mélange Gaussien employé. Nous introduisons l’utilisation de plusieurs modèles de mélange Gaussien pour différents types d’arrière-plans, e.g., différentes catégories de scène, et analyser la performance de ces représentations pour objet classification et l’impact de la catégorie de scène en tant que variable latente. Notre seconde approche propose une extension de la représentation l’exemple SVM pipeline. Nous montrons d’abord que, en remplaçant la fonction de perte de la SVM par la perte carrée, on obtient des résultats similaires à une fraction de le coût de calcul. Nous appelons ce modèle la « square-loss exemplar machine », ou SLEM en anglais. Nous introduisons une variante de SLEM à noyaux qui bénéficie des même avantages coputationnelles mais affiche des performances améliorées. Nous présentons des expériences qui établissent la performance et l’efficacité de nos méthodes en utilisant une grande variété de représentations de base et de jeux de données de recherche d’images. Enfin, nous proposons un réseau neuronal profond pour le problème de l’établissement sémantique correspondance. Nous utilisons des boîtes d’objets en tant qu’éléments de correspondance pour construire une architecture qui apprend simultanément l’apparence et la cohérence géométrique. Nous proposons de nouveaux scores géométriques de cohérence adaptés à l’architecture du réseau de neurones. Notre modèle est entraâiné sur des paires d’images obtenues à partir des points-clés d’un jeu de données de référence et évaluées sur plusieurs ensembles de données, surpassant les architectures d’apprentissage en profondeur récentes et méthodes antérieures basées sur des caractéristiques artisanales. Nous terminons la thèse en soulignant nos contributions et en suggérant d’éventuelles directions de recherche futures.
Type de document :
Thèse
Computer Vision and Pattern Recognition [cs.CV]. École normale supérieure de Paris, 2017. English
Liste complète des métadonnées

https://hal.inria.fr/tel-01676893
Contributeur : Rafael Sampaio de Rezende <>
Soumis le : samedi 6 janvier 2018 - 17:46:31
Dernière modification le : mardi 24 avril 2018 - 17:20:16
Document(s) archivé(s) le : samedi 7 avril 2018 - 12:47:51

Fichier

thesis_main.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01676893, version 1

Collections

Citation

Rafael Sampaio de Rezende. New methods for image classification, image retrieval and semantic correspondence . Computer Vision and Pattern Recognition [cs.CV]. École normale supérieure de Paris, 2017. English. 〈tel-01676893〉

Partager

Métriques

Consultations de la notice

264

Téléchargements de fichiers

185