Answering Provenance-Aware Queries on RDF Data Cubes under Memory Budgets

Luis Galárraga; Kim Ahlstrøm; Katja Hose; Torben Bach Pedersen

doi:10.1007/978-3-030-00671-6_32

Communication Dans Un Congrès Année : 2018

Answering Provenance-Aware Queries on RDF Data Cubes under Memory Budgets

Traitement de requêtes de provenance dans des cubes RDF sous des contraintes de mémoire

(1, 2) , (2) , (2) , (2)

1
2

Luis Galárraga

Fonction : Auteur

Large Scale Collaborative Data Mining

Aalborg University [Denmark]

Kim Ahlstrøm

Fonction : Auteur

Aalborg University [Denmark]

Katja Hose

Fonction : Auteur

Aalborg University [Denmark]

Torben Bach Pedersen

Fonction : Auteur

Aalborg University [Denmark]

Résumé

The steadily-growing popularity of semantic data on the Web and the support for aggregation queries in SPARQL 1.1 have propelled the interest in Online Analytical Processing (OLAP) and data cubes in RDF. Query processing in such settings is challenging because SPARQL OLAP queries usually contain many triple patterns with grouping and aggregation. Moreover, one important factor of query answering on Web data is its provenance, i.e., metadata about its origin. Some applications in data analytics and access control require to augment the data with provenance metadata and run queries that impose constraints on this provenance. This task is called provenance-aware query answering. In this paper, we investigate the benefit of caching some parts of an RDF cube augmented with provenance information when answering provenance-aware SPARQL queries. We propose provenance-aware caching (PAC), a caching approach based on a provenance-aware partitioning of RDF graphs, and a benefit model for RDF cubes and SPARQL queries with aggregation. Our results on real and synthetic data show that PAC outperforms significantly the LRU strategy (least recently used) and the Jena TDB native caching in terms of hit-rate and response time.

La croissante popularité des données sémantiques sur le Web et la prise en charge des requêtes d'agrégation dans SPARQL 1.1 ont suscité l'intérêt pour le traitement analytique en ligne (OLAP) et les cubes de données en RDF. Le traitement des requêtes dans de tels scenarios est difficile, car les requêtes OLAP SPARQL contiennent généralement de nombreux modèles triples avec regroupement et agrégation. De plus, un facteur important de réponse à une requête sur des données Web est sa provenance, c’est-à-dire des métadonnées sur son origine. Certaines applications d’analyse de données et de contrôle d’accès nécessitent d’augmenter les données avec des métadonnées de provenance et d’exécuter des requêtes qui imposent des contraintes à cette provenance. Cette tâche est appelée réponse à une requête sensible à la provenance. Dans cet article, nous étudions les avantages de la mise en cache de certaines parties d’un cube RDF complétées par des informations de provenance lors de la réponse à des requêtes SPARQL tenant compte de la provenance. Nous proposons une mise en cache basée sur la provenance (PAC), une approche de mise en cache basée sur un partitionnement des graphes RDF tenant compte de la provenance, ainsi qu'un modèle d'avantages pour les cubes RDF et les requêtes SPARQL avec agrégation. Nos résultats sur des données réelles et synthétiques montrent que PAC dépasse de manière significative la stratégie LRU (la moins récemment utilisée) et la mise en cache native Jena TDB en termes de taux d’accès et de temps de réponse.

Domaines

Web Base de données [cs.DB]

Fichier principal

paper.pdf (344.74 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Galárraga Luis : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-01931333

Soumis le : jeudi 22 novembre 2018-16:49:55

Dernière modification le : vendredi 24 mars 2023-14:53:08

Archivage à long terme le : samedi 23 février 2019-15:59:25

Dates et versions

hal-01931333 , version 1 (22-11-2018)

Identifiants

HAL Id : hal-01931333 , version 1
DOI : 10.1007/978-3-030-00671-6_32

Citer

Luis Galárraga, Kim Ahlstrøm, Katja Hose, Torben Bach Pedersen. Answering Provenance-Aware Queries on RDF Data Cubes under Memory Budgets. ISWC 2018 - 17th International Semantic Web Conference, Oct 2018, Monterey, United States. pp.547-565, ⟨10.1007/978-3-030-00671-6_32⟩. ⟨hal-01931333⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-RENNES1 CNRS INRIA INSA-RENNES IRISA CENTRALESUPELEC INRIA2 UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES UR1-MATH-NUM

235 Consultations

316 Téléchargements

Answering Provenance-Aware Queries on RDF Data Cubes under Memory Budgets

Traitement de requêtes de provenance dans des cubes RDF sous des contraintes de mémoire

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager