Learning to detect visual relations

Julia Peyre

Thèse Année : 2019

Learning to detect visual relations

Modèles de détection automatique de relations visuelles

(1, 2, 3, 4)

1
2
3
4

Julia Peyre

Fonction : Auteur
PersonId : 1041387

Models of visual object recognition and scene understanding

Département d'informatique - ENS Paris

École normale supérieure - Paris

Centre National de la Recherche Scientifique

Résumé

In this thesis, we study the problem of detection of visual relations of the form (subject, predicate, object) in images, which are intermediate level semantic units between objects and complex scenes. Our work addresses two main challenges in visual relation detection: (1) the difficulty of obtaining box-level annotations to train fully-supervised models, (2) the variability of appearance of visual relations. We first propose a weakly-supervised approach which, given pre-trained object detectors, enables us to learn relation detectors using image-level labels only, maintaining a performance close to fully-supervised models. Second, we propose a model that combines different granularities of embeddings (for subject, object, predicate and triplet) to better model appearance variation and introduce an analogical reasoning module to generalize to unseen triplets. Experimental results demonstrate the improvement of our hybrid model over a purely compositional model and validate the benefits of our transfer by analogy to retrieve unseen triplets.

Nous étudions le problème de détection de relations visuelles de la forme (sujet, prédicat, objet) dans les images, qui sont des entités intermédiaires entre les objets et les scènes visuelles complexes. Cette thèse s’attaque à deux défis majeurs : (1) le problème d’annotations coûteuses pour l’entrainement de modèles fortement supervisés, (2) la variation d’apparence visuelle des relations. Nous proposons un premier modèle de détection de relations visuelles faiblement supervisé, n’utilisant que des annotations au niveau de l’image, qui, étant donné des détecteurs d’objets pré entrainés, atteint une précision proche de celle de modèles fortement supervisés. Notre second modèle combine des représentations compositionnelles (sujet, objet, prédicat) et holistiques (triplet) afin de mieux modéliser les variations d’apparence visuelle et propose un module de raisonnement par analogie pour généraliser à de nouveaux triplets. Nous validons expérimentalement le bénéfice apporté par chacune de ces composantes sur des bases de données réelles.

Mots clés

Deep learning Weakly-supervised learning Computer vision Visual relation detection Scene understanding Image and language

Détection de relations visuelles Vision par ordinateur Compréhension d’images Apprentissage faiblement supervisé Image et language Apprentissage profond

Domaines

Intelligence artificielle [cs.AI] Vision par ordinateur et reconnaissance de formes [cs.CV] Réseau de neurones [cs.NE]

Fichier principal

manuscript_version_definitive_79680_PEYRE_2019_archivage.pdf (35.79 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Julia Peyre : Connectez-vous pour contacter le contributeur

https://inria.hal.science/tel-02332673

Soumis le : mercredi 20 novembre 2019-10:13:52

Dernière modification le : vendredi 19 avril 2024-16:18:56

Dates et versions

tel-02332673 , version 1 (20-11-2019)

tel-02332673 , version 2 (23-03-2020)

Identifiants

HAL Id : tel-02332673 , version 1

Citer

Julia Peyre. Learning to detect visual relations. Artificial Intelligence [cs.AI]. Ecole Normale Superieure de Paris - ENS Paris, 2019. English. ⟨NNT : ⟩. ⟨tel-02332673v1⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

279 Consultations

31 Téléchargements

Learning to detect visual relations

Modèles de détection automatique de relations visuelles

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager