Learning to detect visual relations

Julia Peyre

Thèse Année : 2019

Learning to detect visual relations

Détection automatique de relations visuelles

(1, 2)

1
2

Julia Peyre

Fonction : Auteur

Département d'informatique - ENS Paris

Models of visual object recognition and scene understanding

Résumé

In this thesis, we study the problem of detection of visual relations of the form (subject, predicate, object) in images, which are intermediate level semantic units between objects and complex scenes. Our work addresses two main challenges in visual relation detection: (1) the difficulty of obtaining box-level annotations to train fully-supervised models, (2) the variability of appearance of visual relations. We first propose a weakly-supervised approach which, given pre-trained object detectors, enables us to learn relation detectors using image-level labels only, maintaining a performance close to fully-supervised models. Second, we propose a model that combines different granularities of embeddings (for subject, object, predicate and triplet) to better model appearance variation and introduce an analogical reasoning module to generalize to unseen triplets. Experimental results demonstrate the improvement of our hybrid model over a purely compositional model and validate the benefits of our transfer by analogy to retrieve unseen triplets.

Nous étudions le problème de détection de relations visuelles de la forme (sujet, prédicat, objet) dans les images, qui sont des entités intermédiaires entre les objets et les scènes visuelles complexes. Cette thèse s’attaque à deux défis majeurs : (1) le problème d’annotations coûteuses pour l’entrainement de modèles fortement supervisés, (2) la variation d’apparence visuelle des relations. Nous proposons un premier modèle de détection de relations visuelles faiblement supervisé, n’utilisant que des annotations au niveau de l’image, qui, étant donné des détecteurs d’objets pré-entrainés, atteint une précision proche de celle de modèles fortement supervisés. Notre second modèle combine des représentations compositionnelles (sujet, objet, prédicat) et holistiques (triplet) afin de mieux modéliser les variations d’apparence visuelle et propose un module de raisonnement par analogie pour généraliser à de nouveaux triplets. Nous validons expérimentalement le bénéfice apporté par chacune de ces composantes sur des bases de données réelles.

Mots clés

Computer vision Visual relation detection Scene understanding Image and language Weakly-supervised learning Deep learning

Vision par ordinateur Détection de relations visuelles Compréhension d’images Image et language Apprentissage faiblement supérvisé Apprentissage profond

Domaines

Intelligence artificielle [cs.AI] Vision par ordinateur et reconnaissance de formes [cs.CV] Réseau de neurones [cs.NE]

Fichier principal

Peyre-2019-These.pdf (35.82 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://inria.hal.science/tel-02332673

Soumis le : lundi 23 mars 2020-17:58:26

Dernière modification le : vendredi 19 avril 2024-16:18:56

Dates et versions

tel-02332673 , version 1 (20-11-2019)

tel-02332673 , version 2 (23-03-2020)

Identifiants

HAL Id : tel-02332673 , version 2

Citer

Julia Peyre. Learning to detect visual relations. Artificial Intelligence [cs.AI]. Université Paris sciences et lettres, 2019. English. ⟨NNT : 2019PSLEE016⟩. ⟨tel-02332673v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

ENS-PARIS CNRS INRIA STAR THESES-ENS INRIA2 PSL

279 Consultations

31 Téléchargements

Learning to detect visual relations

Détection automatique de relations visuelles

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager