Keys and Pseudo-Keys Detection for Web Datasets Cleansing and Interlinking

Manuel Atencia 1, 2 Jérôme David 1 François Scharffe 3
1 EXMO - Computer mediated exchange of structured knowledge
Inria Grenoble - Rhône-Alpes, LIG - Laboratoire d'Informatique de Grenoble
2 LIG Laboratoire d'Informatique de Grenoble - HADAS
LIG - Laboratoire d'Informatique de Grenoble
3 TATOO - Fouille de données environnementales
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier
Abstract : This paper introduces a method for analyzing web datasets based on key dependencies. The classical notion of a key in relational databases is adapted to RDF datasets. In order to better deal with web data of variable quality, the definition of a pseudo-key is presented. An RDF vocabulary for representing keys is also provided. An algorithm to discover keys and pseudo-keys is described. Experimental results show that even for a big dataset such as DBpedia, the runtime of the algorithm is still reasonable. Two applications are further discussed: (i) detection of errors in RDF datasets, and (ii) datasets interlinking.
Type de document :
Communication dans un congrès
Annette ten Teije, Johanna Voelker, Siegfried Handschuh, Heiner Stuckenschmidt, Mathieu d'Aquin, Andriy Nikolov, Nathalie Aussenac-Gilles, Nathalie Hernandez. EKAW 2012 - international conference on Knowledge Engineering and Knowledge Management, Oct 2012, Galway, Ireland. Springer Verlag, 7603, pp.144-153, 2012, Lecture Notes in Computer Science (LNCS). 〈10.1007/978-3-642-33876-2_14〉
Liste complète des métadonnées

Littérature citée [9 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00768412
Contributeur : Jérôme Euzenat <>
Soumis le : vendredi 21 décembre 2012 - 14:33:37
Dernière modification le : jeudi 11 janvier 2018 - 06:26:17
Document(s) archivé(s) le : dimanche 18 décembre 2016 - 08:34:13

Fichier

atencia2012b.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

Citation

Manuel Atencia, Jérôme David, François Scharffe. Keys and Pseudo-Keys Detection for Web Datasets Cleansing and Interlinking. Annette ten Teije, Johanna Voelker, Siegfried Handschuh, Heiner Stuckenschmidt, Mathieu d'Aquin, Andriy Nikolov, Nathalie Aussenac-Gilles, Nathalie Hernandez. EKAW 2012 - international conference on Knowledge Engineering and Knowledge Management, Oct 2012, Galway, Ireland. Springer Verlag, 7603, pp.144-153, 2012, Lecture Notes in Computer Science (LNCS). 〈10.1007/978-3-642-33876-2_14〉. 〈hal-00768412〉

Partager

Métriques

Consultations de la notice

658

Téléchargements de fichiers

351