Clustering optimal de gènes fondé sur une mesure de similarité sémantique

Rachid Hafiane 1 Malika Smaïl-Tabbone 2 Marie-Dominique Devignes 3 Salvatore Tabbone 4
1 QGAR - Querying Graphics through Analysis and Recognition
LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
2 ORPAILLEUR - Knowledge representation, reasonning
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
3 ORPAILLEUR - Knowledge representation, reasonning
Inria Nancy - Grand Est, LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
4 QGAR - Querying Graphics through Analysis and Recognition
LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Dans de nombreux domaines d'application de l'analyse de données ou de la recherche d'information, il est utile de grouper de façon non supervisée des objets par similarité sans qu'il soit aisé de les représenter par des vecteurs de propriétés numériques. En biologie moléculaire, la similarité permet de capturer soit la structure complexe des objets (cas des molécules ou des séquences) soit la sémantique de leur description (cas des maladies ou des gènes). De nombreuses mesures de similarité ont été proposées mais une fois converties en dissimilarité en vue du clustering, ces mesures ne présentent pas forcément les bonnes propriétés d'une métrique. Le clustering d'objets pour lesquels on ne dispose que d'une matrice de dissimilarité requiert d'utiliser des méthodes adéquates. Nous proposons ici une évaluation comparative du clustering de gènes sur la base d'une mesure de similarité sémantique sur les termes de la Gene Ontology, IntelliGO. Nous nous appuyons sur quatre benchmarks que nous avons définis pour comparer les performances du clustering hiérarchique ascendant, du clustering C-means flou, et du clustering après plongement de la matrice de dissimilarité dans un espace Euclidien. Nous utilisons précisément une méthode de plongement qui tient compte du fait que la dissimilarité n'est pas une vraie métrique.
Type de document :
Communication dans un congrès
Catherine Berrut. 10ème édition de la COnférence en Recherche d'Information et Applications - CORIA 2013, Apr 2013, Neufchâtel, Suisse. 15 p, 2013
Liste complète des métadonnées

https://hal.inria.fr/hal-00920700
Contributeur : Malika Smail-Tabbone <>
Soumis le : jeudi 19 décembre 2013 - 09:23:17
Dernière modification le : jeudi 11 janvier 2018 - 06:25:25

Identifiants

  • HAL Id : hal-00920700, version 1

Collections

Citation

Rachid Hafiane, Malika Smaïl-Tabbone, Marie-Dominique Devignes, Salvatore Tabbone. Clustering optimal de gènes fondé sur une mesure de similarité sémantique. Catherine Berrut. 10ème édition de la COnférence en Recherche d'Information et Applications - CORIA 2013, Apr 2013, Neufchâtel, Suisse. 15 p, 2013. 〈hal-00920700〉

Partager

Métriques

Consultations de la notice

238