Exploitation d'une mesure de micro-précision cumulée non supervisée pour l'évaluation fiable de la qualité des résultats de clustering

Jean-Charles Lamirel; Maha Ghribi; Pascal Cuxac

Communication Dans Un Congrès Année : 2010

Exploitation d'une mesure de micro-précision cumulée non supervisée pour l'évaluation fiable de la qualité des résultats de clustering

(1) , (2) , (2)

1
2

Jean-Charles Lamirel

Fonction : Auteur
PersonId : 8202
IdHAL : jean-charles-lamirel

Natural Language Processing: representation, inference and semantics

Maha Ghribi

Fonction : Auteur
PersonId : 865717

Institut de l'information scientifique et technique

Pascal Cuxac

Fonction : Auteur
PersonId : 179348
IdHAL : pascal-cuxac
ORCID : 0000-0002-6809-5654
IdRef : 165835257

Institut de l'information scientifique et technique

Résumé

In the context of unsupervised classification, or clustering, the fact of not having a reference classification represents a heavy handicap to evaluate the performance of the algorithms. On their own side, traditional quality indexes (Inertia, DB...) do not allow to properly estimate the quality of the clustering in several cases, as in that one of the textual data. We thus present an alternative approach for clustering quality evaluation based on unsupervised measures of Recall, Precision and F-measure exploiting the descriptors of the data associated with the obtained clusters. The Recall makes it possible to measure the exhaustiveness of the contents of the clusters in terms of peculiar descriptors specific to each cluster. The Precision measures the homogeneity of the clusters in terms of proportion of the data containing the associated peculiar descriptors. This paper especially focuses on the construction of a new cumulative Micro precision index that makes it possible to evaluate the overall quality of a clustering result while clearly distinguishing between homogeneous and heterogeneous results. The experimental comparison of the behavior of the classical indexes with our new index is performed on a dataset of bibliographical references issued from the PASCAL database.

Dans le cadre de la classification non supervisée, ou clustering, le fait de ne pas disposer d’une classification de référence représente un lourd handicap pour évaluer la performance des algorithmes. De leur coté, les critères traditionnels de qualité (inertie, DB...) ne permettent pas d’estimer correctement la qualité du clustering dans de nombreux cas, comme dans celui des données textuelles. Nous présentons ainsi une approche alternative pour l'évaluation de la qualité du clustering basée sur des critères de rappel, de précision et de F-mesure non supervisés, exploitant les descripteurs des données associées aux clusters. Le rappel permet de mesurer l'exhaustivité du contenu des clusters en termes de descripteurs propres, spécifiques à chaque cluster. La précision mesure l’homogénéité des clusters en termes de proportion des données contenant leurs descripteurs propres associés. Ce papier se concentre particulièrement sur la construction d'un nouvel index de micro-précision cumulée qui permet d’évaluer la qualité globale d'un résultat de clustering tout en donnant la possibilité complémentaire de distinguer clairement entre des résultats homogènes et des résultats hétérogènes. La comparaison expérimentale du comportement des critères classiques avec notre nouvelle approche est effectuée sur un ensemble de références bibliographiques issues de la base de données de PASCAL.

Domaines

Statistiques [math.ST] Théorie [stat.TH]

Fichier principal

p150.pdf (456.25 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Conférence Sfds-Hal : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00494723

Soumis le : jeudi 24 juin 2010-08:54:24

Dernière modification le : samedi 6 avril 2024-03:25:54

Archivage à long terme le : lundi 27 septembre 2010-11:28:44

Dates et versions

inria-00494723 , version 1 (24-06-2010)

Identifiants

HAL Id : inria-00494723 , version 1

Citer

Jean-Charles Lamirel, Maha Ghribi, Pascal Cuxac. Exploitation d'une mesure de micro-précision cumulée non supervisée pour l'évaluation fiable de la qualité des résultats de clustering. 42èmes Journées de Statistique, Société Française de Statistique (SFdS), May 2010, Marseille, France. ⟨inria-00494723⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA SFDS10 UNIV-LORRAINE INRIA2 LORIA INIST

137 Consultations

345 Téléchargements

Exploitation d'une mesure de micro-précision cumulée non supervisée pour l'évaluation fiable de la qualité des résultats de clustering

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager