Exploitation d'une mesure de micro-précision cumulée non supervisée pour l'évaluation fiable de la qualité des résultats de clustering - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2010

Exploitation d'une mesure de micro-précision cumulée non supervisée pour l'évaluation fiable de la qualité des résultats de clustering

Résumé

In the context of unsupervised classification, or clustering, the fact of not having a reference classification represents a heavy handicap to evaluate the performance of the algorithms. On their own side, traditional quality indexes (Inertia, DB...) do not allow to properly estimate the quality of the clustering in several cases, as in that one of the textual data. We thus present an alternative approach for clustering quality evaluation based on unsupervised measures of Recall, Precision and F-measure exploiting the descriptors of the data associated with the obtained clusters. The Recall makes it possible to measure the exhaustiveness of the contents of the clusters in terms of peculiar descriptors specific to each cluster. The Precision measures the homogeneity of the clusters in terms of proportion of the data containing the associated peculiar descriptors. This paper especially focuses on the construction of a new cumulative Micro precision index that makes it possible to evaluate the overall quality of a clustering result while clearly distinguishing between homogeneous and heterogeneous results. The experimental comparison of the behavior of the classical indexes with our new index is performed on a dataset of bibliographical references issued from the PASCAL database.
Dans le cadre de la classification non supervisée, ou clustering, le fait de ne pas disposer d’une classification de référence représente un lourd handicap pour évaluer la performance des algorithmes. De leur coté, les critères traditionnels de qualité (inertie, DB...) ne permettent pas d’estimer correctement la qualité du clustering dans de nombreux cas, comme dans celui des données textuelles. Nous présentons ainsi une approche alternative pour l'évaluation de la qualité du clustering basée sur des critères de rappel, de précision et de F-mesure non supervisés, exploitant les descripteurs des données associées aux clusters. Le rappel permet de mesurer l'exhaustivité du contenu des clusters en termes de descripteurs propres, spécifiques à chaque cluster. La précision mesure l’homogénéité des clusters en termes de proportion des données contenant leurs descripteurs propres associés. Ce papier se concentre particulièrement sur la construction d'un nouvel index de micro-précision cumulée qui permet d’évaluer la qualité globale d'un résultat de clustering tout en donnant la possibilité complémentaire de distinguer clairement entre des résultats homogènes et des résultats hétérogènes. La comparaison expérimentale du comportement des critères classiques avec notre nouvelle approche est effectuée sur un ensemble de références bibliographiques issues de la base de données de PASCAL.
Fichier principal
Vignette du fichier
p150.pdf (456.25 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

inria-00494723 , version 1 (24-06-2010)

Identifiants

  • HAL Id : inria-00494723 , version 1

Citer

Jean-Charles Lamirel, Maha Ghribi, Pascal Cuxac. Exploitation d'une mesure de micro-précision cumulée non supervisée pour l'évaluation fiable de la qualité des résultats de clustering. 42èmes Journées de Statistique, Société Française de Statistique (SFdS), May 2010, Marseille, France. ⟨inria-00494723⟩
137 Consultations
345 Téléchargements

Partager

Gmail Facebook X LinkedIn More