Data interlinking with relational concept analysis

Jérémy Vizzini

Résumé

Vast amounts of RDF data are made available on the web by various institutions providing overlapping information. To be fully exploited, different representations of the same object across various data sets have to be identified. This is what is called data interlinking. One novel way to generate such links is to use link keys. Link keys generalise database keys by applying them across two data sets. The structure of RDF makes this problem much more complex than for relational databases for several reasons. An instance can have multiple values for a given attribute. Moreover, values of properties are not necessarily datatypes but instances of the graph. A first method has been designed to extract and select link keys from two classes of objects which deals with multiple values but not object values. Moreover, the extraction step has been rephrased in formal concept analysis (FCA) allowing to generate link keys across relational tables. Our aim is to extend this work so that it can deal with multiple values. Then, we show how to use it to deal with object values when the data set is cycle free. This encoding does not necessarily generate the optimal link keys. Hence, we use relational concept analysis (RCA), an extension of FCA taking relations between concepts into account. We show that a new expression of this problem is able to extract the optimal link keys even in the prese

Une grande quantité de données RDF est disponible sur le web par divers institutions créant des chevauchements d’informations. Afin d’être pleinement exploité, différentes représentations d’un même objet provenant de différents ensembles de données doivent être identifiées. C’est ce qu’on appelle le liage de données. Une nouvelle façon de générer de tels liens consiste à utiliser la notion de clés de liage. Les clés de liage génélarisent les clés en base de données en les appliquant à deux ensembles de données distincts. La structure de RDF rend ce problème beaucoup plus complexe que pour les bases de données relationnelles pour plusieurs raisons. Tout d’abord, une instance peut avoir plusieurs valeurs pour un attribut donné. De plus, les valeurs des propriétés ne sont pas forcément de types simples, ils peuvent tout aussi être d’autres instances du graphe. Une première méthode a été conçue afin d’extraire et de sélectionner des clés de liage à partir de deux classes d’objets composés par plusieurs propriétés ayant seulement des valeurs de types simples. Par ailleurs, l’étape d’extraction a été reformulée en analyse de concept formel (FCA) permettant de générer des clés de liaison pour des tables de bases de données relationnelles. Notre objectif est d’étendre ce travail afin qu’il puisse gérer de multiples valeurs. D’abord , nous montrons comment l’utiliser pour traiter les propriétés objet lorsque le jeu de données est exempt de cycles. Cet encodage ne génère pas nécessairement les clés de liage optimales. Par conséquent, nous utilisons l’analyse de concept relationnel (RCA), une extension de FCA prenant en compte les relations entre les concepts. Nous montrons qu’une nouvelle expression de ce problème est capable d’extraire les clés de liage de manière optimale même en présence de circularités. En outre, le processus élaboré ne requiert pas d’information à propos des alignements des classes des ontologies. Nous avons mis en oeuvre ces méthodes et les avons évaluées en reproduisant les expériences réalisées lors d’études antérieures. Cela nous a permis de montrer que la méthode extrait les résultats attendus ainsi que de mettre en évidence un problème de mise à l’échelle (également attendus).

Data interlinking with relational concept analysis

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager