CliqueSquare: efficient Hadoop-based RDF query processing - Archive ouverte HAL Access content directly
Conference Papers Year : 2013

CliqueSquare: efficient Hadoop-based RDF query processing

(1) , (1) , (1) , (2) , (1)
1
2

Abstract

Large volumes of RDF data collections are being created, published and used lately in various contexts, from scientific data to domain ontologies and to open government data, in particular in the context of the Linked Data movement. Managing such large volumes of RDF data is challenging due to the sheer size and the heterogeneity. To tackle the size challenge, a single isolated machine is not an efficient solution anymore. The MapReduce paradigm is a promising direction providing scalability and massively parallel processing of large-volume data. We present CliqueSquare, an efficient RDF data management platform based on Hadoop, an open source MapReduce implementation, and its file system, Hadoop Distributed File System (HDFS). CliqueSquare relies on a novel RDF data partitioning scheme enabling queries to be evaluated efficiently, by minimizing both the number of MapReduce jobs and the data transfer between nodes during query execution. We present preliminary experiments comparing our system against HadoopRDF, the state-of-the-art Hadoop-based RDF platform. The results demonstrate the advantages of CliqueSquare not only in terms of query response times, but also in terms of network traffic.
De grands volumes de données RDF sont créés, publiés et utilisés dans de nombreux contextes, allant des données scientifiques aux ontologies de domaine, en passant par les données ouvertes notamment avec l'essor des données liées. Gérer de telles données RDF est un challenge de par leur volume et leur hétérogénéité. En particulier, les solutions centralisées ne font plus face à la masse des données. Le paradigme MapReduce, offrant des traitements massivement parallèles à fort potentiel de passage à l'échelle, semble une voie prometteuse pour manipuler ces nouveaux ordres de grandeur de données. Dans cet article, nous présentons CliqueSquare, une plateforme efficace de gestion de données RDF fondée sur Hadoop, une implémentation open-source de MapReduce, et son système de fichiers, Hadoop Distributed File System (HDFS), pour stocker et traiter de grands volumes de données. Nous proposons une méthode de partitionnement efficace des données RDF réduisant les transferts de données lors de l'évaluation des requêtes, ainsi qu'un algorithme fondé sur des cliques pour produire des plans de requêtes, minimiser le nombre d'étapes MapReduce, et exploiter notre schéma de partitionnement des données. Enfin, nous présentons des résultats préliminaires en comparant notre système avec HadoopRDF, la référence de la littérature pour les solutions de stockage et interrogation de données RDF fondées sur Hadoop. Nous montrons notamment la supériorité de CliqueSquare en termes de temps de réponse et de trafic réseau.
Fichier principal
Vignette du fichier
top.pdf (544.58 Ko) Télécharger le fichier
Origin : Publisher files allowed on an open archive
Loading...

Dates and versions

hal-00867728 , version 1 (30-09-2013)

Identifiers

  • HAL Id : hal-00867728 , version 1

Cite

François Goasdoué, Zoi Kaoudi, Ioana Manolescu, Jorge Quiané-Ruiz, Stamatis Zampetakis. CliqueSquare: efficient Hadoop-based RDF query processing. BDA'13 - Journées de Bases de Données Avancées, Oct 2013, Nantes, France. ⟨hal-00867728⟩
652 View
984 Download

Share

Gmail Facebook Twitter LinkedIn More