Jeux-de-données

Résultats, Expérimentation 1 : Comparaison des trois approches

Conclusion

Expérimentations 3 et 4 : Autour des redescriptions

, Dans un premier temps, nous regardons l'expressivité des redescriptions, en permettant l'utilisation de disjonctions et de négations dans les règles. Dans un second temps, nous recherchons des catégories incompatibles, c'est-à-dire des catégories qui n, Les deux dernières expériences s'intéressent au potentiel des redescriptions

, Expérimentation 3 : Vers des règles plus expressives Dans cette expérimentation, nous nous intéressons à la définition des catégories en utilisant des conjonctions, des disjonctions et des négations. Pour cela, nous utilisons REREMI sur le jeu de données Smartphones selon deux modalités. Première modalité : seules les disjonctions sont autorisées

, Seconde modalité : les disjonctions et les négations sont autorisées

. S'agissant-d'une-démarche-exploratoire, La table 7.8 présente quelques exemples de définitions utilisant des conjonctions, des disjonctions et des négations. Les règles 51 à 55 sont obtenues dans la première modalité, les règles 56 à 60 sont obtenues dans la seconde modalité, nous utilisons des seuils peu restrictifs : le coefficient de Jaccard minimum est fixé à 0.4 et la p-valeur à 0, vol.2, p.27

, Dans près de la moitié des cas, la disjonction est utilisée pour ?.manufacturer{Samsung ? Samsung_Electronics}, comme le montrent les règles 51 à 54. La disjonction permet dans ce cas de considérer deux attributs synonymes. Dans les autres cas, la disjonction sert à énumérer de nombreux attributs qui qualifient des objets différents. Par exemple, la règle 56 montre une définition qui énumère les parties d'un ensemble : la catégorie Android_(operating_system)_de-vices) est constituée de tous les téléphones de marques utilisant l'OS Android (il est rare qu'une marque propose deux OS différents). Dans ce cas, la disjonction permet de représenter une partition, contiennent des disjonctions. Leur utilisation permet de « raffiner » certaines règles. Par exemple, la règle 51 raffine la règle 49 trouvée précédemment

, Dans la deuxième modalité, nous obtenons 76 règles

, Parmi les 38 règles restantes, 31 ont la catégorie à la forme négative et 14 sont des « double négation » : tous les attributs de la partie gauche et de la partie droite sont mis à la forme négative. En effet, jacc(A,B) ? jacc(¬A,¬B) et dans certains cas, le Jaccard est plus élevé lorsque les attributs sont mis à la forme négative. C'est par exemple le cas de la règle 57 : son coefficient Jaccard 20, Cependant, certaines contraintes spécifiées dans le fichier de configuration ne sont pas prises en compte par l'interface de l'algorithme. Ainsi, nous observons des règles contenant plusieurs catégories et/ou ayant un Jaccard inférieur au seuil fixé

, Au contraire, les règles de traduction offrent un faible nombre de définition, avec une très bonne couverture des données. Cependant, les définitions extraites comportent de nombreux attributs. Finalement, les redescriptions sont un compromis en terme de nombre de définitions extraites : leur nombre est bien moins grand que les redescriptions, Il en ressort que les règles d'association permettre d'extraire un très grand nombre de définitions, mais présentent de nombreuses redondances

, Le web des données se présente comme un très grand graphe constitué de bases de triplets RDF connectées entre elles. Un triplet RDF, dénoté (sujet, prédicat, objet), représente une relation (le prédicat) qui existe entre deux ressources (le sujet et l'objet). Les ressources peuvent appartenir à une ou plusieurs classes, nous nous intéressons au web des données et aux "connaissances" que potentiellement il renferme

. Ainsi, La plupart du temps ces bases de connaissances sont construites de manière collaborative par des utilisateurs. C'est notamment le cas de DBpedia, une base de connaissances centrale dans le web des données, qui encode le contenu de Wikipédia au format RDF. DBpedia est construite à partir de deux types de données de Wikipédia : d'une part, des données (semi-)structurées telles que les infoboxes et d'autre part les catégories, ces bases de triplets RDF peuvent être vues comme des bases de connaissances interconnectées

L. Cependant and . Dans-dbpedia, est-à-dire la raison pour laquelle un agent humain a regroupé des ressources, n'est pas explicite. De fait, en considérant une classe, un agent logiciel a accès aux ressources qui y sont regroupées -il dispose de la définition dite en extension -mais il n'a généralement pas accès aux "motifs" de ce regroupement -il ne dispose pas de la définition dite en intension

T. Dans-cette, Plus précisément, nous cherchons à associer une intension à une classe donnée en extension. La paire (extension, intension) produite va fournir la définition recherchée et va autoriser la mise en oeuvre d'un raisonnement par classification pour un agent logiciel. Cela peut s'exprimer en termes de conditions nécessaires et suffisantes : si x appartient à la classe C, alors x a la propriété P (condition nécessaire), et si x a la propriété P, alors il appartient à la classe C (condition suffisante). Deux méthodes de fouille de données complémentaires nous permettent de matérialiser la découverte de définitions, nous cherchons à associer une définition à une catégorie en l'assimilant à une classe de ressources

M. Dans-le, Ensuite, nous proposons une adaptation de chacune des méthodes pour finaliser la tâche de découverte de définitions. Puis nous détaillons un ensemble d'expérimentations menées sur DBpedia, où nous comparons qualitativement et quantitativement les deux approches. Enfin les définitions découvertes peuvent potentiellement être ajoutées à DBpedia pour améliorer sa qualité, nous présentons d'abord un état de l'art sur les règles d'association et les redescriptions

. Mots-clés, Découverte de connaissances ? Analyse de Concepts Formels ? Fouille de Redescriptions ? Fouille de Règles ? Construction de Définitions ? Classification dans le Web des Données