Content and data linking leveraging ontological knowledge in data journalism - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Thèse Année : 2021

Content and data linking leveraging ontological knowledge in data journalism

Utilisation de connaissances ontologiques dans la liaison de contenus et de données appliquée au journalisme de données

Résumé

This thesis is about the creation of links between textual content and ontological knowledge bases (KBs). It pertains several areas of research: natural language processing, information retrieval and semantic web, and in particular RDF-based KBs. We propose to study collective entity linking, which consists in linking at once mentions of entities present in a textual document to entities in a KB. To that end, we leverage semantic measures, i.e., entity relatedness measures which exploit the relationships between the entities in a KB. We contribute by the definition of well-founded entity relatedness measures that benefit to the extent possible from the properties of RDF KBs through (basic) reasoning, and thus allow to improve the state-of-the-art. Furthermore, we are also interested in the alignment of different KBs, based on KBs embedding techniques. This alignment not only allows to enrich the KBs at hand, but also to indirectly improve the collective entity linking. We contribute by an alignment criterion, based on the alignment of the dimensions of the KBs embedding spaces, which, notably does not need any prior knowledge to perform said KBs alignment.
Cette thèse s’intéresse à la création de liens entre contenus textuels et bases de connaissances ontologiques (BC). Elle fait appel à plusieurs domaines de recherche : le traitement automatique des langues, la recherche d’information et le web sémantique, notamment l’utilisation de BC fondées sur le modèle RDF. Nous proposons d’une part d’étudier le liage d’entités collectif qui cherche à relier simultanément les mentions d’entités présentes dans un texte aux entités d’une BC. Notre contribution porte sur la définition de mesures sémantiques bien fondées qui exploitent les propriétés des BC pour améliorer l’état de l’art, et permettent d’introduire du raisonnement. D’autre part, nous nous intéressons à l’alignement de différentes BC, moyennant des approches de plongement des bases dans des espaces de grandes dimensions. Cet alignement permet l’enrichissement des BC, et indirectement l’amélioration du liage d’entités collectif. Pour ce faire, nous proposons un nouveau critère qui se fonde sur l’alignement des dimensions des espaces de plongement des BC, et permet de résister à un alignement a priori bruité entre les BC, voire de supprimer ce besoin d’alignement manuel.
Fichier principal
Vignette du fichier
EL_VAIGH_Cheikh_Brahim.pdf (1.16 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03131484 , version 1 (04-02-2021)
tel-03131484 , version 2 (09-09-2021)

Identifiants

  • HAL Id : tel-03131484 , version 2

Citer

Cheikh Brahim El Vaigh. Content and data linking leveraging ontological knowledge in data journalism. Computer Science [cs]. Université Rennes 1, 2021. English. ⟨NNT : 2021REN1S001⟩. ⟨tel-03131484v2⟩
252 Consultations
231 Téléchargements

Partager

Gmail Facebook X LinkedIn More