Keys and Pseudo-keys Detection for Web Datasets Cleansing and Interlinking

François Scharffe 1 Jérôme David 2 Manuel Atencia 2, 3
1 TATOO - Fouille de données environnementales
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier
2 EXMO - Computer mediated exchange of structured knowledge
Inria Grenoble - Rhône-Alpes, LIG - Laboratoire d'Informatique de Grenoble
3 LIG Laboratoire d'Informatique de Grenoble - HADAS
LIG - Laboratoire d'Informatique de Grenoble
Abstract : This report introduces a novel method for analysing web datasets based on key dependencies. This particular kind of functional dependencies, widely studied in the field of database theory, allows to evaluate if a set of properties constitutes a key for the set of data considered. When this is the case, there won't be any two instances having identical values for these properties. After giving necessary definitions, we propose an algorithm for detecting minimal keys and pseudo-keys in a RDF dataset. We then use this algorithm to detect keys in datasets published as web data and we apply this approach in two applications: (i) reducing the number of properties to compare in order to discover equivalent instances between two datasets, (ii) detecting errors inside a dataset.
Type de document :
Rapport
[Contract] scharffe2012b, 2012, pp.18
Liste complète des métadonnées

Littérature citée [12 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00785745
Contributeur : Jérôme Euzenat <>
Soumis le : mercredi 6 février 2013 - 19:06:31
Dernière modification le : jeudi 24 mai 2018 - 15:59:23
Document(s) archivé(s) le : samedi 1 avril 2017 - 17:43:19

Fichier

datalift-412.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00785745, version 1

Citation

François Scharffe, Jérôme David, Manuel Atencia. Keys and Pseudo-keys Detection for Web Datasets Cleansing and Interlinking. [Contract] scharffe2012b, 2012, pp.18. 〈hal-00785745〉

Partager

Métriques

Consultations de la notice

644

Téléchargements de fichiers

150