Vectorisation des processus d'appariement document-requête - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2010

Vectorisation des processus d'appariement document-requête

Romain Tavenard
Laurent Amsaleg

Résumé

In most IR systems, rapidly computing the proximity between a query and a document is an issue. This is generally computed very efficiently in the Vector Space Model. When handling very long queries or with different IR models, however, the cost of this computation can be quite high. In this paper, we propose a simple approach transforming any documentquery pairing technique into a vectorial representation. Therefore, it becomes possible to use existing approximate indexing techniques allowing the fast computation of distances between high-dimensional vectors. We experimentally show that our approach does not degrade the results and can even yields better recall rates when considering high document cut-off values.
Dans la plupart des applications de RI, calculer rapidement la proximité entre documents et requêtes est crucial. Avec les modèles vectoriels, ce calcul se fait généralement de manière très efficace. Cependant, lorsque les requêtes sont très longues ou dans le cas de SRI basés sur des modèles plus avancés, ce calcul devient plus complexe et coûteux. Dans cet article, nous proposons une technique simple pour transformer n'importe quel processus d'appariement requête-document fournissant un score en un problème de calcul de distance entre vecteurs. Cette approche peut ainsi bénéficier des bonnes performances des outils existants d'indexation et de recherche approximative dans des espaces de grandes dimensions. Au travers de quelques expériences, nous montrons par ailleurs que cette représentation n'entraîne pas de baisse importante de qualité des résultats, et, lorsque de nombreux documents sont à retourner, améliore même le rappel par rapport au SRI original, à taille de résultat égal.
Fichier non déposé

Dates et versions

inria-00561797 , version 1 (01-02-2011)

Identifiants

  • HAL Id : inria-00561797 , version 1

Citer

Vincent Claveau, Romain Tavenard, Laurent Amsaleg. Vectorisation des processus d'appariement document-requête. 7e conférence en recherche d'informations et applications, CORIA'10, Mar 2010, Sousse, Tunisie. ⟨inria-00561797⟩
146 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More