Enhancing the selection of a model-based clustering with external qualitative variables
Résumé
In cluster analysis, it is often useful to interpret the obtained partition with respect to external qualitative variables (defining known partitions) derived from alternative information. An approach is proposed in the model-based clustering context to select a model and a number of clusters in order to get a partition which both provides a good fit with the data and is related to the external variables. This approach makes use of the integrated joint likelihood of the data, the partition derived from the mixture model and the known partitions. It is worth noticing that the external qualitative variables are only used to select a relevant mixture model. Each mixture model is fitted by the maximum likelihood methodology from the observed data. Numerical experiments illustrate the promising behaviour of the derived criterion.
En classification non supervisée, il est souvent utile d'interpréter la classification à l'aide de variables qualitatives externes qui définissent elles-mêmes des partitions. Nous proposons une approche fondée sur le modèle de mélange de lois de probabilité permettant de sélectionner un modèle et le nombre de classes produisant à la fois un bon ajustement des données et possédant une liaison forte avec les variables qualitatives externes. Cette approche se fonde sur un critère approximant la vraisemblance intégrée des données complétées par les étiquettes de la partition cherchée et par celles des partitions associées aux variables externes. Il est important de souligner que les variables externes sont seulement utilisées pour sélectionner un modèle de mélange estimé par la méthode du maximum de vraisemblance. Des illustrations numériques montrent le comportement prometteur du critère proposé.
Origine : Fichiers produits par l'(les) auteur(s)
Loading...