Construction et utilisation d'une base de connaissances pharmacogénomique pour l'intégration de données et la découverte de connaissances - Inria - Institut national de recherche en sciences et technologies du numérique Access content directly
Theses Year : 2008

Construction and use of a pharmacogenomic knowledge base for data integration and knowledge discovery

Construction et utilisation d'une base de connaissances pharmacogénomique pour l'intégration de données et la découverte de connaissances

Adrien Coulet

Abstract

This thesis studies the use of ontology and knowledge base for guiding various steps of the Knowledge Discovery in Databases (KDD) process in the domain of pharmacogenomics.
Data related to this domain are heterogeneous, complex, and disseminated through several data sources. Consequently, the preliminary step that consists in the preparation and the integration of data is crucial. For guiding this step, an original approach is proposed, based on a knowledge representation of the domain within two ontologies in description logics: SNP-Ontology and SO-Pharm. This approach has been implemented using semantic Web technologies and leads finally to populating a pharmacogenomic knowledge base. As a result, data to analyze are represented in the knowledge base, which is a benefit for guiding following steps of the knowledge discovery process. Firstly, I study this benefit for feature selection by illustrating how the knowledge base can be used for this purpose. Secondly, I describe and apply to pharmacogenomics a new method named Role Assertion Analysis (or RAA) that enables knowledge discovery directly from knowledge bases. This method uses data mining algorithms over assertions of our pharmacogenomic knowledge base and results in the discovery of new and relevant knowledge.
Cette thèse porte sur l'utilisation d'ontologies et de bases de connaissances pour guider différentes étapes du processus d'Extraction de Connaissances à partir de Bases de Données (ECBD) et sur une application en pharmacogénomique. Les données relatives à ce domaine sont hétérogènes, complexes, et distribuées dans diverses bases de données, ce qui rend cruciale l'étape préliminaire de préparation et d'intégration des données à fouiller. Je propose pour guider cette étape une approche originale d'intégration de données qui s'appuie sur une représentation des connaissances du domaine sous forme de deux ontologies en logiques de description : SNP-Ontology et SO-Pharm. Cette approche a été implémentée grâce aux technologies du Web sémantique et conduit au peuplement d'une base de connaissances pharmacogénomique. Le fait que les données à fouiller soient alors disponibles dans une base de connaissances entraîne de nouvelles potentialités pour le processus d'extraction de connaissances. Je me suis d'abord intéressé au problème de la sélection des données les plus pertinentes à fouiller en montrant comment la base de connaissances peut être exploitée dans ce but. Ensuite j'ai décrit et appliqué à la pharmacogénomique, une méthode qui permet l'extraction de connaissances directement à partir d'une base de connaissances. Cette méthode appelée Analyse des Assertions de Rôles (ou AAR) permet d'utiliser des algorithmes de fouille de données sur un ensemble d'assertions de la base de connaissances pharmacogénomique et d'expliciter des connaissances nouvelles et pertinentes qui y étaient enfouies.
Fichier principal
Vignette du fichier
these_adrien.pdf (4.32 Mo) Télécharger le fichier
Loading...

Dates and versions

tel-01748450 , version 2 (20-10-2008)
tel-01748450 , version 1 (29-03-2018)

Identifiers

  • HAL Id : tel-01748450 , version 2

Cite

Adrien Coulet. Construction et utilisation d'une base de connaissances pharmacogénomique pour l'intégration de données et la découverte de connaissances. Interface homme-machine [cs.HC]. Université Henri Poincaré - Nancy 1, 2008. Français. ⟨NNT : 2008NAN10047⟩. ⟨tel-01748450v2⟩
1128 View
3469 Download

Share

Gmail Facebook X LinkedIn More