CliqueSquare: Flat Plans for Massively Parallel RDF Queries - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2014

CliqueSquare: Flat Plans for Massively Parallel RDF Queries

Résumé

As increasing volumes of RDF data are being produced and analyzed, many massively distributed architectures have been proposed for storing and querying this data. These architectures are characterized first, by their RDF partitioning and storage method, and second, by their approach for distributed query optimization, i.e., determining which operations to execute on each node in order to compute the query answers. We present CliqueSquare, a novel optimization approach for evaluating conjunctive RDF queries in a massively parallel environment. We focus on reducing query response time, and thus seek to build flat plans, where the number of joins encountered on a root-to-leaf path in the plan is minimized. We present a family of optimization algorithms, relying on n-ary (star) equality joins to build flat plans, and compare their ability to find the flattest possibles. We have deployed our algorithms in a MapReduce-based RDF platform and demonstrate experimentally the interest of the flat plans built by our best algorithms.
Pour faire face à l'explosion du volume de données RDF produites et analysées quotidiennement, de nombreux systèmes de stockage et d'interrogation de données RDF massivement distribués ont été développés. Ces architectures sont caractérisées par leur méthode de partitionnement et de stockage de données RDF d'une part, et, d'autre part, par la façon dont elles optimisent les requêtes, c'est-à-dire la manière dont les calculs sont distribués entre les différents nœuds afin de calculer les réponses. Cet article présente CliqueSquare, une nouvelle approche d'optimisation pour l'évaluation de requêtes RDF conjonctives dans un environnement massivement parallèle. Notre but principal est de réduire le temps de réponse des requêtes; pour cela, nous nous intéressons aux plans d'éxecution "plats" (de faible hauteur), dans lesquels le nombre de jointures successives sur un chemin allant de la racine du plan d'exécution jusqu'à l'un de ses opérateurs feuilles est minimisé. Nous présentons une famille d'algorithmes d'optimisation, basés sur des jointures d'égalité n-aires (en "étoile"), pour construire des plans plats et comparons leurs capacités à trouver les plans les plus plats possibles. Nous avons implémenté nos algorithmes dans une plate-forme RDF basée sur MapReduce; nos expériences démontrent l'intérêt des plans plats construits par nos meilleurs algorithmes d'optimisation.
Fichier principal
Vignette du fichier
RR-8612.pdf (864.83 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01071984 , version 1 (07-10-2014)
hal-01071984 , version 2 (14-04-2015)

Identifiants

  • HAL Id : hal-01071984 , version 2

Citer

François Goasdoué, Zoi Kaoudi, Ioana Manolescu, Jorge Quiané-Ruiz, Stamatis Zampetakis. CliqueSquare: Flat Plans for Massively Parallel RDF Queries. [Research Report] RR-8612, INRIA Saclay; INRIA. 2014. ⟨hal-01071984v2⟩
470 Consultations
779 Téléchargements

Partager

Gmail Facebook X LinkedIn More