Vectorisation des processus d'appariement document-requête

Vincent Claveau 1, * Romain Tavenard 1 Laurent Amsaleg 1
* Auteur correspondant
1 TEXMEX - Multimedia content-based indexing
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
Résumé : Dans la plupart des applications de RI, calculer rapidement la proximité entre documents et requêtes est crucial. Avec les modèles vectoriels, ce calcul se fait généralement de manière très efficace. Cependant, lorsque les requêtes sont très longues ou dans le cas de SRI basés sur des modèles plus avancés, ce calcul devient plus complexe et coûteux. Dans cet article, nous proposons une technique simple pour transformer n'importe quel processus d'appariement requête-document fournissant un score en un problème de calcul de distance entre vecteurs. Cette approche peut ainsi bénéficier des bonnes performances des outils existants d'indexation et de recherche approximative dans des espaces de grandes dimensions. Au travers de quelques expériences, nous montrons par ailleurs que cette représentation n'entraîne pas de baisse importante de qualité des résultats, et, lorsque de nombreux documents sont à retourner, améliore même le rappel par rapport au SRI original, à taille de résultat égal.
Type de document :
Communication dans un congrès
7e conférence en recherche d'informations et applications, CORIA'10, Mar 2010, Sousse, Tunisie. 2010, <http://asso-aria.org/coria/2010/313.pdf>
Liste complète des métadonnées

https://hal.inria.fr/inria-00561797
Contributeur : Patrick Gros <>
Soumis le : mardi 1 février 2011 - 19:40:56
Dernière modification le : vendredi 13 janvier 2017 - 14:20:56

Identifiants

  • HAL Id : inria-00561797, version 1

Collections

Citation

Vincent Claveau, Romain Tavenard, Laurent Amsaleg. Vectorisation des processus d'appariement document-requête. 7e conférence en recherche d'informations et applications, CORIA'10, Mar 2010, Sousse, Tunisie. 2010, <http://asso-aria.org/coria/2010/313.pdf>. <inria-00561797>

Partager

Métriques

Consultations de la notice

133