New methods for image classification, image retrieval and semantic correspondence

Résumé : Le problème de représentation d’image est au cœur du domaine de vision. Le choix de représentation d’une image change en fonction de la tâche que nous voulons étudier. Un problème de recherche d’image dans des grandes bases de données exige une représentation globale compressée, alors qu’un problème de segmentation sémantique nécessite une carte de partitionnement de ses pixels. Les techniques d’apprentissage statistique sont l’outil principal pour la construction de ces représentations. Dans ce manuscrit, nous abordons l’apprentissage des représentations visuels dans trois problèmes différents : la recherche d’image, la correspondance sémantique et classification d’image. Premièrement, nous étudions la représentation vectorielle de Fisher et sa dépendance sur le modèle de mélange Gaussien employé. Nous introduisons l’utilisation de plusieurs modèles de mélange Gaussien pour différents types d’arrière-plans, e.g., différentes catégories de scènes, et analyser la performance de ces représentations pour objet classification et l’impact de la catégorie de scène en tant que variable latente. Notre seconde approche propose une extension de la représentation l’exemple SVM pipeline. Nous montrons d’abord que, en remplaçant la fonction de perte de la SVM par la perte carrée, on obtient des résultats similaires à une fraction de le coût de calcul. Nous appelons ce modèle la « square-loss exemplar machine », ou SLEM en anglais. Nous introduisons une variante de SLEM à noyaux qui bénéficie des même avantages computationnelles mais affiche des performances améliorées. Nous présentons des expériences qui établissent la performance et l’efficacité de nos méthodes en utilisant une grande variété de représentations de base et de jeux de données de recherche d’images. Enfin, nous proposons un réseau neuronal profond pour le problème de l’établissement sémantique correspondance. Nous utilisons des boîtes d’objets en tant qu’éléments de correspondance pour construire une architecture qui apprend simultanément l’apparence et la cohérence géométrique. Nous proposons de nouveaux scores géométriques de cohérence adaptés à l’architecture du réseau de neurones. Notre modèle est entrainé sur des paires d’images obtenues à partir des points-clés d’un jeu de données de référence et évaluées sur plusieurs ensembles de données, surpassant les architectures d’apprentissage en profondeur récentes et méthodes antérieures basées sur des caractéristiques artisanales. Nous terminons la thèse en soulignant nos contributions et en suggérant d’éventuelles directions de recherche futures.
Type de document :
Thèse
Computer Vision and Pattern Recognition [cs.CV]. PSL Research University, 2017. English. 〈NNT : 2017PSLEE068〉
Liste complète des métadonnées

https://hal.inria.fr/tel-01676893
Contributeur : Abes Star <>
Soumis le : mardi 17 juillet 2018 - 11:54:06
Dernière modification le : jeudi 19 juillet 2018 - 01:17:53

Fichier

Sampaio_de_Rezende-2017-These....
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01676893, version 2

Collections

Citation

Rafael Sampaio de Rezende. New methods for image classification, image retrieval and semantic correspondence. Computer Vision and Pattern Recognition [cs.CV]. PSL Research University, 2017. English. 〈NNT : 2017PSLEE068〉. 〈tel-01676893v2〉

Partager

Métriques

Consultations de la notice

172

Téléchargements de fichiers

105