Exploitation d'une mesure de micro-précision cumulée non supervisée pour l'évaluation fiable de la qualité des résultats de clustering

Jean-Charles Lamirel 1 Maha Ghribi 2 Pascal Cuxac 2
1 TALARIS - Natural Language Processing: representation, inference and semantics
Inria Nancy - Grand Est, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Abstract : In the context of unsupervised classification, or clustering, the fact of not having a reference classification represents a heavy handicap to evaluate the performance of the algorithms. On their own side, traditional quality indexes (Inertia, DB...) do not allow to properly estimate the quality of the clustering in several cases, as in that one of the textual data. We thus present an alternative approach for clustering quality evaluation based on unsupervised measures of Recall, Precision and F-measure exploiting the descriptors of the data associated with the obtained clusters. The Recall makes it possible to measure the exhaustiveness of the contents of the clusters in terms of peculiar descriptors specific to each cluster. The Precision measures the homogeneity of the clusters in terms of proportion of the data containing the associated peculiar descriptors. This paper especially focuses on the construction of a new cumulative Micro precision index that makes it possible to evaluate the overall quality of a clustering result while clearly distinguishing between homogeneous and heterogeneous results. The experimental comparison of the behavior of the classical indexes with our new index is performed on a dataset of bibliographical references issued from the PASCAL database.
Type de document :
Communication dans un congrès
42èmes Journées de Statistique, 2010, Marseille, France. 2010
Liste complète des métadonnées

Littérature citée [7 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/inria-00494723
Contributeur : Conférence Sfds-Hal <>
Soumis le : jeudi 24 juin 2010 - 08:54:24
Dernière modification le : jeudi 11 janvier 2018 - 06:21:35
Document(s) archivé(s) le : lundi 27 septembre 2010 - 11:28:44

Fichier

p150.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00494723, version 1

Collections

Citation

Jean-Charles Lamirel, Maha Ghribi, Pascal Cuxac. Exploitation d'une mesure de micro-précision cumulée non supervisée pour l'évaluation fiable de la qualité des résultats de clustering. 42èmes Journées de Statistique, 2010, Marseille, France. 2010. 〈inria-00494723〉

Partager

Métriques

Consultations de la notice

302

Téléchargements de fichiers

276