Modèle de langue visuel pour la reconnaissance de scènes

Trong-Ton Pham 1 Loic Maisonnasse 2, 3 Philippe Mulhem 1 Eric Gaussier 1
1 MRIM - Modélisation et Recherche d’Information Multimédia [Grenoble]
LIG - Laboratoire d'Informatique de Grenoble, Inria - Institut National de Recherche en Informatique et en Automatique
2 DRIM - Distribution, Recherche d'Information et Mobilité
LIRIS - Laboratoire d'InfoRmatique en Image et Systèmes d'information
Résumé : Dans cet article, nous décrivons une méthode pour utiliser un modèle de langue sur des graphes pour la recherche et la catégorisation d'images. Nous utilisons des régions d'images (associées automatiquement à des concepts visuels), ainsi que des relations spatiales entre ces régions, lors de la construction de la représentation sous forme de graphe des images. Notre méthode gère différents scénarios, selon que des images isolées ou groupées soient utilisés comme base d'apprentissage ou de tests. Les résultats obtenus sur un problème de catégorisation d'images montre (a) que la procédure automatique qui associe les concepts à une image est efficace, et (b) que l'utilisation des relations spatiales, en plus des concepts, permet d'améliorer la qualité de la classification. Cette approche présente donc une extension du modèle de langue classique en recherche d'information pour traiter le problème de recherche et de catégorisation d'images représentées par des graphes sans se préoccuper des annotations d'images.
Type de document :
Communication dans un congrès
CORIA, 2009, Giens, France. pp.99-112, 2009
Liste complète des métadonnées

Littérature citée [16 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00954023
Contributeur : Marie-Christine Fauvet <>
Soumis le : lundi 3 mars 2014 - 12:22:34
Dernière modification le : mardi 24 avril 2018 - 13:32:29
Document(s) archivé(s) le : samedi 31 mai 2014 - 10:52:25

Fichier

99.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00954023, version 1

Citation

Trong-Ton Pham, Loic Maisonnasse, Philippe Mulhem, Eric Gaussier. Modèle de langue visuel pour la reconnaissance de scènes. CORIA, 2009, Giens, France. pp.99-112, 2009. 〈hal-00954023〉

Partager

Métriques

Consultations de la notice

373

Téléchargements de fichiers

111