Simultaneous Clustering and Model Selection for Multinomial Distribution: A Comparative Study

Md Abul Hasnat 1 Julien Velcin 1 Stéphane Bonnevay 1 Julien Jacques 1, 2
2 MODAL - MOdel for Data Analysis and Learning
Inria Lille - Nord Europe, LPP - Laboratoire Paul Painlevé - UMR 8524, CERIM - Santé publique : épidémiologie et qualité des soins-EA 2694, Polytech Lille, Université de Lille 1, IUT’A
Abstract : In this paper, we study different discrete data clustering methods, which use the Model-Based Clustering (MBC) framework with the Multinomial distribution. Our study comprises several relevant issues, such as initialization, model estimation and model selection. Additionally, we propose a novel MBC method by efficiently combining the partitional and hierarchical clustering techniques. We conduct experiments on both synthetic and real data and evaluate the methods using accuracy, stability and computation time. Our study identifies appropriate strategies to be used for discrete data analysis with the MBC methods. Moreover, our proposed method is very competitive w.r.t. clustering accuracy and better w.r.t. stability and computation time.
Type de document :
Communication dans un congrès
Intelligent Data Analysis, Oct 2015, Saint Etienne, France. 〈https://ida2015.univ-st-etienne.fr〉
Liste complète des métadonnées

Littérature citée [19 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01203561
Contributeur : Julien Jacques <>
Soumis le : jeudi 24 septembre 2015 - 08:38:37
Dernière modification le : mercredi 25 avril 2018 - 14:23:16
Document(s) archivé(s) le : mardi 29 décembre 2015 - 09:34:44

Fichier

IDA_CR.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01203561, version 1

Collections

Citation

Md Abul Hasnat, Julien Velcin, Stéphane Bonnevay, Julien Jacques. Simultaneous Clustering and Model Selection for Multinomial Distribution: A Comparative Study. Intelligent Data Analysis, Oct 2015, Saint Etienne, France. 〈https://ida2015.univ-st-etienne.fr〉. 〈hal-01203561〉

Partager

Métriques

Consultations de la notice

280

Téléchargements de fichiers

218