Of Learning Visual Representations Robust to Invariances for Image Classification and Retrieval

Mattis Paulin 1
1 Thoth - Apprentissage de modèles à partir de données massives
Inria Grenoble - Rhône-Alpes, LJK - Laboratoire Jean Kuntzmann
Résumé : Ce mémoire de thèse porte sur l’élaboration de systèmes de reconnaissance d’image qui sont robustes à la variabilité géométrique. La compréhension d’une image est un problème difficile, de par le fait qu’elles sont des projections en deux dimensions d’objets 3D. Par ailleurs, des représentations qui doivent appartenir à la même catégorie, par exemple des objets de la même classe en classification, peuvent être visuellement très différentes. Notre but est de rendre ces systèmes robustes à la juste quantité de déformations, celle-ci étant automatiquement déterminée à partir des données. Nos deux contributions sont les suivantes. Nous montrons tout d’abord comment utiliser des exemples virtuels pour rendre les systèmes de classification d’images robustes et nous proposons ensuite une méthodologie pour apprendre des descripteurs de bas niveau robustes, pour la recherche d’image. Nous étudions tout d’abord les exemples virtuels, en tant que transformations de vrais exemples. En représentant une image en tant que sac de descripteurs transformés, nous montrons que l’augmentation de données, c’est-à-dire le fait de les considérer comme de nouveaux exemples iid, est la meilleure manière de les utiliser, pourvu qu’une étape de vote avec les descripteurs transformés soit opérée lors du test. Du fait que les transformations apportent différents niveaux d’information, peuvent etre redondants, voire nuire à la performance, nous proposons un nouvel algorithme capable de sélectionner un petit nombre d’entre elles, en maximisant la justesse de classification. Nous montrons par ailleurs comment remplacer de vrais exemples par des virtuels, pour alléger les couts d’annotation. Nous rapportons de bons résultats sur des bancs d’essai de classification. Notre seconde contribution vise à améliorer les descripteurs de régions locales utilisés en recherche d’image, et en particulier nous proposons une alternative au populaire descripteur SIFT. Nous proposons un nouveau descripteur, appellé patch-CKN, appris sans supervision. Nous introduisons un nouvel ensemble de données liant les images et les imagettes, construit à partir de reconstruction 3D automatique d’images récupérées sur Internet. Nous définissons une méthode pour tester précisément la performance des descripteurs locaux au niveau de l’imagette et de l’image. Notre approche dépasse SIFT et les autres approches à base d’architectures convolutionnelles sur notre banc d’essai, et d’autres courra ment utilisés dans la littérature.
Mots-clés : Vision artificielle
Type de document :
Thèse
Computer Vision and Pattern Recognition [cs.CV]. Université Grenoble Alpes, 2017. English
Liste complète des métadonnées

Littérature citée [126 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/tel-01677852
Contributeur : Thoth Team <>
Soumis le : lundi 8 janvier 2018 - 17:33:26
Dernière modification le : mercredi 11 avril 2018 - 01:59:12
Document(s) archivé(s) le : vendredi 4 mai 2018 - 14:18:25

Fichier

PAULIN_thesis_manuscript.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01677852, version 1

Collections

Citation

Mattis Paulin. Of Learning Visual Representations Robust to Invariances for Image Classification and Retrieval. Computer Vision and Pattern Recognition [cs.CV]. Université Grenoble Alpes, 2017. English. 〈tel-01677852〉

Partager

Métriques

Consultations de la notice

209

Téléchargements de fichiers

148