CliqueSquare: efficient Hadoop-based RDF query processing

François Goasdoué; Zoi Kaoudi; Ioana Manolescu; Jorge Quiané-Ruiz; Stamatis Zampetakis

Communication Dans Un Congrès Année : 2013

CliqueSquare: efficient Hadoop-based RDF query processing

(1) , (1) , (1) , (2) , (1)

1
2

François Goasdoué

Fonction : Auteur
PersonId : 5730
IdHAL : francois-goasdoue
ORCID : 0000-0003-4532-7974
IdRef : 133000109

Database optimizations and architectures for complex large data

Zoi Kaoudi

Fonction : Auteur

Database optimizations and architectures for complex large data

Ioana Manolescu

Fonction : Auteur
PersonId : 742652
IdHAL : ioana-manolescu
ORCID : 0000-0002-0425-2462

Database optimizations and architectures for complex large data

Jorge Quiané-Ruiz

Fonction : Auteur
PersonId : 946020

Qatar Computing Research Institute

Stamatis Zampetakis

Fonction : Auteur

Database optimizations and architectures for complex large data

Résumé

Large volumes of RDF data collections are being created, published and used lately in various contexts, from scientific data to domain ontologies and to open government data, in particular in the context of the Linked Data movement. Managing such large volumes of RDF data is challenging due to the sheer size and the heterogeneity. To tackle the size challenge, a single isolated machine is not an efficient solution anymore. The MapReduce paradigm is a promising direction providing scalability and massively parallel processing of large-volume data. We present CliqueSquare, an efficient RDF data management platform based on Hadoop, an open source MapReduce implementation, and its file system, Hadoop Distributed File System (HDFS). CliqueSquare relies on a novel RDF data partitioning scheme enabling queries to be evaluated efficiently, by minimizing both the number of MapReduce jobs and the data transfer between nodes during query execution. We present preliminary experiments comparing our system against HadoopRDF, the state-of-the-art Hadoop-based RDF platform. The results demonstrate the advantages of CliqueSquare not only in terms of query response times, but also in terms of network traffic.

De grands volumes de données RDF sont créés, publiés et utilisés dans de nombreux contextes, allant des données scientifiques aux ontologies de domaine, en passant par les données ouvertes notamment avec l'essor des données liées. Gérer de telles données RDF est un challenge de par leur volume et leur hétérogénéité. En particulier, les solutions centralisées ne font plus face à la masse des données. Le paradigme MapReduce, offrant des traitements massivement parallèles à fort potentiel de passage à l'échelle, semble une voie prometteuse pour manipuler ces nouveaux ordres de grandeur de données. Dans cet article, nous présentons CliqueSquare, une plateforme efficace de gestion de données RDF fondée sur Hadoop, une implémentation open-source de MapReduce, et son système de fichiers, Hadoop Distributed File System (HDFS), pour stocker et traiter de grands volumes de données. Nous proposons une méthode de partitionnement efficace des données RDF réduisant les transferts de données lors de l'évaluation des requêtes, ainsi qu'un algorithme fondé sur des cliques pour produire des plans de requêtes, minimiser le nombre d'étapes MapReduce, et exploiter notre schéma de partitionnement des données. Enfin, nous présentons des résultats préliminaires en comparant notre système avec HadoopRDF, la référence de la littérature pour les solutions de stockage et interrogation de données RDF fondées sur Hadoop. Nous montrons notamment la supériorité de CliqueSquare en termes de temps de réponse et de trafic réseau.

Mots clés

RDF MapReduce Hadoop query optimization

Domaines

Base de données [cs.DB]

Fichier principal

top.pdf (544.58 Ko)

Origine : Fichiers éditeurs autorisés sur une archive ouverte

Stamatis Zampetakis : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-00867728

Soumis le : lundi 30 septembre 2013-14:27:16

Dernière modification le : lundi 12 février 2024-09:54:04

Archivage à long terme le : vendredi 7 avril 2017-04:31:24

Dates et versions

hal-00867728 , version 1 (30-09-2013)

Identifiants

HAL Id : hal-00867728 , version 1

Citer

François Goasdoué, Zoi Kaoudi, Ioana Manolescu, Jorge Quiané-Ruiz, Stamatis Zampetakis. CliqueSquare: efficient Hadoop-based RDF query processing. BDA'13 - Journées de Bases de Données Avancées, Oct 2013, Nantes, France. ⟨hal-00867728⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

EC-PARIS CNRS INRIA UMR8623 BDA INRIA2 LRI-LAHDAK UNIV-PARIS-SACLAY

663 Consultations

1079 Téléchargements

CliqueSquare: efficient Hadoop-based RDF query processing

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager