Enhancing the selection of a model-based clustering with external qualitative variables - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2012

Enhancing the selection of a model-based clustering with external qualitative variables

Margarida Cardoso
  • Fonction : Auteur
  • PersonId : 932151
Gilles Celeux
Maria-José Amorim
  • Fonction : Auteur
  • PersonId : 932152
Ana Sousa Ferreira
  • Fonction : Auteur
  • PersonId : 932151

Résumé

In cluster analysis, it is often useful to interpret the obtained partition with respect to external qualitative variables (defining known partitions) derived from alternative information. An approach is proposed in the model-based clustering context to select a model and a number of clusters in order to get a partition which both provides a good fit with the data and is related to the external variables. This approach makes use of the integrated joint likelihood of the data, the partition derived from the mixture model and the known partitions. It is worth noticing that the external qualitative variables are only used to select a relevant mixture model. Each mixture model is fitted by the maximum likelihood methodology from the observed data. Numerical experiments illustrate the promising behaviour of the derived criterion.
En classification non supervisée, il est souvent utile d'interpréter la classification à l'aide de variables qualitatives externes qui définissent elles-mêmes des partitions. Nous proposons une approche fondée sur le modèle de mélange de lois de probabilité permettant de sélectionner un modèle et le nombre de classes produisant à la fois un bon ajustement des données et possédant une liaison forte avec les variables qualitatives externes. Cette approche se fonde sur un critère approximant la vraisemblance intégrée des données complétées par les étiquettes de la partition cherchée et par celles des partitions associées aux variables externes. Il est important de souligner que les variables externes sont seulement utilisées pour sélectionner un modèle de mélange estimé par la méthode du maximum de vraisemblance. Des illustrations numériques montrent le comportement prometteur du critère proposé.
Fichier principal
Vignette du fichier
RR-8124.pdf (629.1 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00747387 , version 1 (31-10-2012)

Identifiants

  • HAL Id : hal-00747387 , version 1

Citer

Jean-Patrick Baudry, Margarida Cardoso, Gilles Celeux, Maria-José Amorim, Ana Sousa Ferreira. Enhancing the selection of a model-based clustering with external qualitative variables. [Research Report] RR-8124, INRIA. 2012, pp.14. ⟨hal-00747387⟩
437 Consultations
3153 Téléchargements

Partager

Gmail Facebook X LinkedIn More