Benchmarking a new semantic similarity measure using fuzzy clustering and reference sets: Application to cancer expression data

Clustering algorithms rely on a similarity or distance measure that directs the grouping of similar objects into the same cluster and the separation of distant objects between distinct clusters. Our recently described semantic similarity measure (IntelliGO), that applies to functional comparison of genes, is tested here for the first time in clustering experiments. The dataset is composed of genes contained in a benchmarking collection of reference sets. Heatmap visualization of hierarchical clustering illustrates the advantages of using the IntelliGO measure over three other similarity measures. Because genes often belong to more than one cluster in functional clustering, fuzzy C-means clustering is also applied to the dataset. The choice of the optimal number of clusters and clustering performance are evaluated by the F-score method using the reference sets. Overlap analysis is proposed as a method for exploiting the matching between clusters and reference sets. Finally, our method is applied to a list of genes found dysregulated in cancer samples. In this case, the reference sets are provided by expression profiles. Overlap analysis between these profiles and functional clusters obtained with fuzzy C-means clustering leads to characterize subsets of genes displaying consistent function and expression profiles.

Les algorithmes de classification (Clustering) reposent sur des mesures de similarité ou de distance qui dirigent le regroupement des objets similaires dans un même groupe et la séparation des objets différents entre des groupes distincts. Notre nouvelle mesure de similarité sémantique (IntelliGO), récemment décrite, qui s'applique à la comparaison fonctionnelle des gènes, est testée ici dans un processus de clustering. L'ensemble de test est composé des gènes contenus dans une collection de classes de référence (Pathways KEGG). La visualisation du clustering hiérarchique avec des cartes de densité (heatmaps) illustre les avantages de l'utilisation de la mesure IntelliGO, par rapport à trois autres mesures de similarité. Comme les gènes peuvent souvent appartenir à plus d'un cluster fonctionnel, la méthode C-means floue est également appliquée à l'ensemble des gènes de la collection. Le choix du nombre optimal de clusters et la performance du clustering sont évalués par la méthode F-score en utilisant les classes de référence. Une analyse de recouvrement entre clusters et classes de référence est proposée pour faciliter des analyses ultérieures. Enfin, notre méthode est appliquée à une liste de gènes dérégulés, concernant le cancer colorectal. Dans ce cas, les classes de référence sont les profils d'expression de ces gènes. L'analyse de recouvrement entre ces profils et les clusters fonctionnels obtenus avec la méthode C-means floue conduit à caractériser des sousensembles de gènes partageant à la fois des fonctions biologiques communes et un comportement transcriptionel identique.

Mots clés

classification clustering gene ontology dna expression data

Domaines

Recherche d'information [cs.IR]

Fichier principal

EGC_2011_sidahmed_V2-last.pdf (383.45 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Sidahmed Benabderrahmane : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00617692

Soumis le : mardi 29 novembre 2011-19:12:15

Dernière modification le : lundi 11 mars 2024-10:38:22

Archivage à long terme le : dimanche 4 décembre 2016-06:44:32

Dates et versions

inria-00617692 , version 1 (29-11-2011)

Identifiants

HAL Id : inria-00617692 , version 1

Citer

Sidahmed Benabderrahmane, Marie-Dominique Devignes, Malika Smail-Tabbone, Olivier Poch, Amedeo Napoli, et al.. Benchmarking a new semantic similarity measure using fuzzy clustering and reference sets: Application to cancer expression data. 11ème Conférence Internationale Francophone sur l'Extraction et la Gestion des Connaissances - EGC 2011, Jan 2011, Brest, France. ⟨inria-00617692⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA IGBMC UNIV-LORRAINE INRIA2 LORIA SITE-ALSACE

181 Consultations

241 Téléchargements