A Large-Scale Performance Study of Cluster-Based High-Dimensional Indexing

Gylfi Thór Gudmundsson; Björn Thór Jónsson; Laurent Amsaleg

Rapport (Rapport De Recherche) Année : 2010

A Large-Scale Performance Study of Cluster-Based High-Dimensional Indexing

(1) , (1) , (2)

1
2

Gylfi Thór Gudmundsson

Fonction : Auteur
PersonId : 871804

School of Computer Science [Reykjavik]

Björn Thór Jónsson

Fonction : Auteur
PersonId : 842959

School of Computer Science [Reykjavik]

Laurent Amsaleg

Fonction : Auteur
PersonId : 15318
IdHAL : laurent-amsaleg
ORCID : 0000-0003-0204-0930
IdRef : 154720879

Multimedia content-based indexing

Résumé

High-dimensional clustering is a method that is used by some content-based image retrieval systems to partition the data into groups; the groups (clusters) are then indexed to accelerate the processing of queries. Recently, the Cluster Pruning approach was proposed as a very simple way to efficiently and effectively produce such clusters. While the original evaluation of the algorithm was performed within a text indexing context at a rather small scale, its simplicity and performance motivated us to study its behavior in an image indexing context at a much larger scale. We experiment with two collections of 72-dimensional state-of-the-art local descriptors, the larger collection containing 189 million descriptors. This paper summarizes the results of this study and shows that while the basic algorithm works fairly well, three extensions can dramatically improve its performance and scalability, accelerating both query processing and the construction of clusters, making Cluster Pruning a promising basis for building large-scale systems that require a clustering algorithm.

Le clustering en grandes dimensions est une méthode employée par certains systèmes de recherche d'images par le contenu pour partitionner l'espace en groupes. Les groupes sont ensuite indexés pour accélérer le traitement des requêtes. Récemment, une approche dite ``Cluster Pruning'' a été proposée comme permettant l'obtention simple, rapide et efficace de ces groupes. Alors que son évaluation originale s'est effectuée dans un contexte d'indexation de textes et à une échelle réduite, sa simplicité et ses performances ont été une forte motivation pour étudier son comportement à bien plus grande échelle, et dans un contexte image. Nous menons des expérimentations où sont utilisés des descripteurs locaux d'image appartenant à l'état de l'art et de dimension 72. Nous traitons plusieurs collections de descripteurs, dont la plus grande en contient 189 millions. Cet article présente une synthèse des résultats de cette étude et montre que l'algorithme original fonctionne relativement bien. Toutefois, trois extensions simples permettent d'améliorer de manière très importante ses performances et son aptitude à passer à l'échelle, en accélérant tant le traitement des requêtes que le temps de construction des groupes. Dotée de ces extensions, l'approche ``Cluster Pruning'' devient alors une brique essentielle pouvant servir aux systèmes grande échelle nécessitant la création de groupes de points.

Domaines

Multimédia [cs.MM]

Fichier principal

RR-7307.pdf (297.56 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Laurent Amsaleg : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00489816

Soumis le : mardi 7 décembre 2010-07:00:06

Dernière modification le : vendredi 24 mars 2023-14:52:53

Archivage à long terme le : jeudi 1 décembre 2016-07:32:27

Dates et versions

inria-00489816 , version 1 (07-12-2010)

Identifiants

HAL Id : inria-00489816 , version 1

Citer

Gylfi Thór Gudmundsson, Björn Thór Jónsson, Laurent Amsaleg. A Large-Scale Performance Study of Cluster-Based High-Dimensional Indexing. [Research Report] RR-7307, INRIA. 2010. ⟨inria-00489816⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

EC-PARIS UNIV-RENNES1 CNRS INRIA INSA-RENNES IRISA INRIA-RRRT IRISA-D6 INRIA2 LARA UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES INSA-GROUPE UR1-MATH-NUM

347 Consultations

252 Téléchargements

A Large-Scale Performance Study of Cluster-Based High-Dimensional Indexing

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager