Benchmarking a new semantic similarity measure using fuzzy clustering and reference sets: Application to cancer expression data

Résumé : Les algorithmes de classification (Clustering) reposent sur des mesures de similarité ou de distance qui dirigent le regroupement des objets similaires dans un même groupe et la séparation des objets différents entre des groupes distincts. Notre nouvelle mesure de similarité sémantique (IntelliGO), récemment décrite, qui s'applique à la comparaison fonctionnelle des gènes, est testée ici dans un processus de clustering. L'ensemble de test est composé des gènes contenus dans une collection de classes de référence (Pathways KEGG). La visualisation du clustering hiérarchique avec des cartes de densité (heatmaps) illustre les avantages de l'utilisation de la mesure IntelliGO, par rapport à trois autres mesures de similarité. Comme les gènes peuvent souvent appartenir à plus d'un cluster fonctionnel, la méthode C-means floue est également appliquée à l'ensemble des gènes de la collection. Le choix du nombre optimal de clusters et la performance du clustering sont évalués par la méthode F-score en utilisant les classes de référence. Une analyse de recouvrement entre clusters et classes de référence est proposée pour faciliter des analyses ultérieures. Enfin, notre méthode est appliquée à une liste de gènes dérégulés, concernant le cancer colorectal. Dans ce cas, les classes de référence sont les profils d'expression de ces gènes. L'analyse de recouvrement entre ces profils et les clusters fonctionnels obtenus avec la méthode C-means floue conduit à caractériser des sousensembles de gènes partageant à la fois des fonctions biologiques communes et un comportement transcriptionel identique.
Type de document :
Communication dans un congrès
11ème Conférence Internationale Francophone sur l'Extraction et la Gestion des Connaissances - EGC 2011, Jan 2011, Brest, France. 2011
Liste complète des métadonnées

Littérature citée [30 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/inria-00617692
Contributeur : Sidahmed Benabderrahmane <>
Soumis le : mardi 29 novembre 2011 - 19:12:15
Dernière modification le : jeudi 15 mars 2018 - 01:33:32
Document(s) archivé(s) le : dimanche 4 décembre 2016 - 06:44:32

Fichier

EGC_2011_sidahmed_V2-last.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00617692, version 1

Collections

Citation

Sidahmed Benabderrahmane, Marie-Dominique Devignes, Malika Smail-Tabbone, Olivier Poch, Amedeo Napoli, et al.. Benchmarking a new semantic similarity measure using fuzzy clustering and reference sets: Application to cancer expression data. 11ème Conférence Internationale Francophone sur l'Extraction et la Gestion des Connaissances - EGC 2011, Jan 2011, Brest, France. 2011. 〈inria-00617692〉

Partager

Métriques

Consultations de la notice

311

Téléchargements de fichiers

308