Reverse Nearest Neighbors Search in High Dimensions using Locality-Sensitive Hashing - Archive ouverte HAL Access content directly
Reports (Research Report) Year : 2010

Reverse Nearest Neighbors Search in High Dimensions using Locality-Sensitive Hashing

(1) , (2)
1
2
David Arthur
  • Function : Author
  • PersonId : 881763
Steve Y. Oudot
  • Function : Correspondent author
  • PersonId : 845393

Connectez-vous pour contacter l'auteur

Abstract

We investigate the problem of finding reverse nearest neighbors efficiently. Although provably good solutions exist for this problem in low or fixed dimensions, to this date the methods proposed in high dimensions are mostly heuristic. We introduce a method that is both provably correct and efficient in all dimensions, based on a reduction of the problem to one instance of $\e$-nearest neighbor search plus a controlled number of instances of {\em exhaustive $r$-\pleb}, a variant of {\em Point Location among Equal Balls} where all the $r$-balls centered at the data points that contain the query point are sought for, not just one. The former problem has been extensively studied and elegantly solved in high dimensions using Locality-Sensitive Hashing (LSH) techniques. By contrast, the latter problem has a complexity that is still not fully understood. We revisit the analysis of the LSH scheme for exhaustive $r$-\pleb using a somewhat refined notion of locality-sensitive family of hash function, which brings out a meaningful output-sensitive term in the complexity of the problem. Our analysis, combined with a non-isometric lifting of the data, enables us to answer exhaustive $r$-\pleb queries (and down the road reverse nearest neighbors queries) efficiently. Along the way, we obtain a simple algorithm for answering exact nearest neighbor queries, whose complexity is parametrized by some {\em condition number} measuring the inherent difficulty of a given instance of the problem.
Nous étudions le problème de la recherche efficace de plus proches voisins inverses en grandes dimensions. Étant donné un nuage de points $P$ et un paramètre $\e$, notre objectif est de pré-traiter le nuage $P$ de telle sorte à pouvoir trouver rapidement l'ensemble des plus proches voisins inverses d'un point de requête $q$ quelconque, plus éventuellement un petit nombre de faux positifs qui sont proches d'être des plus proches voisins inverses de $q$. Alors que des solutions efficaces et prouvées existent pour ce problème en dimensions petites ou fixées, à ce jour les méthodes proposées en grandes dimensions sont essentiellement heuristiques. Nous proposons une méthode à la fois efficace et prouvée en toutes dimensions, basée sur une réduction du problème à un petit nombre d'instances des problèmes classiques de recherche de plus proche voisin approché et de recherche exhaustive de voisins à distance $r$ fixée. La complexité intrinsèque de ce dernier problème reste peu connue. Nous proposons une nouvelle analyse du comportement de certaines techniques de hachage sensibles à la localisation (LSH) sur ce problème, qui met en évidence une borne dépendant de la taille de la sortie, et qui, combinée à un relèvement non-isométrique des points en dimension plus grande, permet de résoudre le problème de la recherche de plus proches voisins inverses efficacement, via la réduction citée précédemment. Dans la foulée nous proposons également une méthode pour effectuer des recherches de plus proches voisins exacts, dont la complexité est paramétrée par un indice de {\em conditionnement} mesurant la difficulté intrinsèque d'une instance particulière du problème.
Fichier principal
Vignette du fichier
RR-7084.pdf (669.87 Ko) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

inria-00429459 , version 1 (06-11-2009)
inria-00429459 , version 2 (09-11-2009)
inria-00429459 , version 3 (31-10-2010)
inria-00429459 , version 4 (08-11-2010)
inria-00429459 , version 5 (22-11-2010)

Identifiers

  • HAL Id : inria-00429459 , version 5

Cite

David Arthur, Steve Y. Oudot. Reverse Nearest Neighbors Search in High Dimensions using Locality-Sensitive Hashing. [Research Report] RR-7084, INRIA. 2010. ⟨inria-00429459v5⟩
446 View
552 Download

Share

Gmail Facebook Twitter LinkedIn More