Model-based clustering for conditionally correlated categorical data

Matthieu Marbac; Christophe Biernacki; Vincent Vandewalle

Rapport (Rapport De Recherche) Année : 2013

Model-based clustering for conditionally correlated categorical data

(1) , (1, 2) , (1)

1
2

Matthieu Marbac

Fonction : Auteur
PersonId : 936866

MOdel for Data Analysis and Learning

Christophe Biernacki

Fonction : Auteur
PersonId : 931592

MOdel for Data Analysis and Learning

Laboratoire Paul Painlevé - UMR 8524

Vincent Vandewalle

Fonction : Auteur
PersonId : 6383
IdHAL : vincent-vandewalle
ORCID : 0000-0003-2946-9059
IdRef : 14348091X

MOdel for Data Analysis and Learning

Résumé

An extension of the latent class model is proposed for clustering categorical data by relaxing the classical class conditional independence assumption of variables. In this model, variables are grouped into inter-independent and intra-dependent blocks in order to consider the main intra-class correlations. The dependence between variables grouped into the same block of a class is taken into account by mixing two extreme distributions, which are respectively the independence and the maximum dependence ones. In the conditionally correlated data case, this approach is expected to reduce biases involved by the latent class model and to produce a meaningful dependency model with few additional parameters. The parameters estimation by maximum likelihood is performed by an EM algorithm while a Gibbs algorithm is used for model selection to avoid combinatorial problems involved by the block structure search. Applications on sociological and biological data sets bring out the proposed model interest. These results strengthen the idea that the proposed model is meaningful and that biases induced by the conditional independence assumption of the latent class model are reduced.

Nous proposons une extension du modèle des classes latentes pour la classification non supervisée de données catégorielles conditionnellement corrélées. Dans ce modèle, les variables sont regroupées en blocs inter-indépendants et intra-dépendants dans le but de prendre en compte les principales corrélations intra-classes. La dépendance entre les variables d'un même bloc est prise en compte par un mélange de deux distributions extrêmes, qui sont celles d'indépendance et de dépendance maximale. Dans le cas de données conditionnellement corrélées, on s'attend à ce que cette approche réduise les biais induits par le modèle des classes latentes et qu'il produise un modèle de dépendance facilement interprétable nécessitant peu de paramètres supplémentaires. L'estimation de ces derniers par maximum de vraisemblance est effectuée par un algorithme EM alors qu'un algorithme de Gibbs, permettant de résoudre les problèmes combinatoires dus à la recherche des blocs, est utilisé pour la sélection de modèle. Des applications sur des données sociologiques et biologiques permettent de mettre en avant l'intérêt du modèle proposé. Leurs résultats confortent l'idée que celui-ci est facilement interprétable et qu'il réduit les biais du modèle des classes latentes dus à l'hypothèse d'indépendance conditionnelle.

Mots clés

Clustering Categorical data Mixture model Correlation EM algorithm Model selection Gibbs algorithm. Gibbs algorithm

Domaines

Statistiques [math.ST] Théorie [stat.TH]

Fichier principal

RR-8232.pdf (740.64 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Matthieu Marbac : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-00787757

Soumis le : mardi 12 février 2013-18:19:44

Dernière modification le : vendredi 19 avril 2024-14:04:05

Archivage à long terme le : lundi 13 mai 2013-04:12:03

Dates et versions

hal-00787757 , version 1 (12-02-2013)

hal-00787757 , version 2 (28-01-2014)

hal-00787757 , version 3 (10-07-2014)

Identifiants

HAL Id : hal-00787757 , version 1

Citer

Matthieu Marbac, Christophe Biernacki, Vincent Vandewalle. Model-based clustering for conditionally correlated categorical data. [Research Report] RR-8232, 2013, pp.34. ⟨hal-00787757v1⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INRIA-RRRT

426 Consultations

452 Téléchargements

Model-based clustering for conditionally correlated categorical data

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager