CliqueSquare: efficient Hadoop-based RDF query processing

François Goasdoué 1 Zoi Kaoudi 1 Ioana Manolescu 1 Jorge Quiané-Ruiz 2 Stamatis Zampetakis 1
1 OAK - Database optimizations and architectures for complex large data
LRI - Laboratoire de Recherche en Informatique, UP11 - Université Paris-Sud - Paris 11, Inria Saclay - Ile de France, CNRS - Centre National de la Recherche Scientifique : UMR8623
Résumé : De grands volumes de données RDF sont créés, publiés et utilisés dans de nombreux contextes, allant des données scientifiques aux ontologies de domaine, en passant par les données ouvertes notamment avec l'essor des données liées. Gérer de telles données RDF est un challenge de par leur volume et leur hétérogénéité. En particulier, les solutions centralisées ne font plus face à la masse des données. Le paradigme MapReduce, offrant des traitements massivement parallèles à fort potentiel de passage à l'échelle, semble une voie prometteuse pour manipuler ces nouveaux ordres de grandeur de données. Dans cet article, nous présentons CliqueSquare, une plateforme efficace de gestion de données RDF fondée sur Hadoop, une implémentation open-source de MapReduce, et son système de fichiers, Hadoop Distributed File System (HDFS), pour stocker et traiter de grands volumes de données. Nous proposons une méthode de partitionnement efficace des données RDF réduisant les transferts de données lors de l'évaluation des requêtes, ainsi qu'un algorithme fondé sur des cliques pour produire des plans de requêtes, minimiser le nombre d'étapes MapReduce, et exploiter notre schéma de partitionnement des données. Enfin, nous présentons des résultats préliminaires en comparant notre système avec HadoopRDF, la référence de la littérature pour les solutions de stockage et interrogation de données RDF fondées sur Hadoop. Nous montrons notamment la supériorité de CliqueSquare en termes de temps de réponse et de trafic réseau.
Type de document :
Communication dans un congrès
BDA'13 - Journées de Bases de Données Avancées, Oct 2013, Nantes, France. 2013
Liste complète des métadonnées

Littérature citée [33 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00867728
Contributeur : Stamatis Zampetakis <>
Soumis le : lundi 30 septembre 2013 - 14:27:16
Dernière modification le : jeudi 11 janvier 2018 - 01:58:33
Document(s) archivé(s) le : vendredi 7 avril 2017 - 04:31:24

Fichier

top.pdf
Fichiers éditeurs autorisés sur une archive ouverte

Identifiants

  • HAL Id : hal-00867728, version 1

Citation

François Goasdoué, Zoi Kaoudi, Ioana Manolescu, Jorge Quiané-Ruiz, Stamatis Zampetakis. CliqueSquare: efficient Hadoop-based RDF query processing. BDA'13 - Journées de Bases de Données Avancées, Oct 2013, Nantes, France. 2013. 〈hal-00867728〉

Partager

Métriques

Consultations de la notice

1035

Téléchargements de fichiers

1052