Model-based clustering for conditionally correlated categorical data

Matthieu Marbac 1 Christophe Biernacki 1, 2 Vincent Vandewalle 1
1 MODAL - MOdel for Data Analysis and Learning
Inria Lille - Nord Europe, LPP - Laboratoire Paul Painlevé - UMR 8524, CERIM - Santé publique : épidémiologie et qualité des soins-EA 2694, Polytech Lille, Université de Lille 1, IUT’A
Résumé : Nous proposons une extension du modèle des classes latentes pour la classification non supervisée de données catégorielles conditionnellement corrélées. Dans ce modèle, les variables sont regroupées en blocs inter-indépendants et intra-dépendants dans le but de prendre en compte les principales corrélations intra-classes. La dépendance entre les variables d'un même bloc est prise en compte par un mélange de deux distributions extrêmes, qui sont celles d'indépendance et de dépendance maximale. Dans le cas de données conditionnellement corrélées, on s'attend à ce que cette approche réduise les biais induits par le modèle des classes latentes et qu'il produise un modèle de dépendance facilement interprétable nécessitant peu de paramètres supplémentaires. L'estimation de ces derniers par maximum de vraisemblance est effectuée par un algorithme EM alors qu'un algorithme de Gibbs, permettant de résoudre les problèmes combinatoires dus à la recherche des blocs, est utilisé pour la sélection de modèle. Des applications sur des données sociologiques et biologiques permettent de mettre en avant l'intérêt du modèle proposé. Leurs résultats confortent l'idée que celui-ci est facilement interprétable et qu'il réduit les biais du modèle des classes latentes dus à l'hypothèse d'indépendance conditionnelle.
Type de document :
Article dans une revue
Journal of Classification, Springer Verlag, 2015, 2 (32), pp.145-175. 〈10.1007/s00357〉
Liste complète des métadonnées

Littérature citée [43 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00787757
Contributeur : Matthieu Marbac <>
Soumis le : jeudi 10 juillet 2014 - 16:17:46
Dernière modification le : mardi 28 juillet 2015 - 01:04:59
Document(s) archivé(s) le : vendredi 10 octobre 2014 - 12:26:41

Fichier

ccm.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

Collections

Citation

Matthieu Marbac, Christophe Biernacki, Vincent Vandewalle. Model-based clustering for conditionally correlated categorical data. Journal of Classification, Springer Verlag, 2015, 2 (32), pp.145-175. 〈10.1007/s00357〉. 〈hal-00787757v3〉

Partager

Métriques

Consultations de
la notice

398

Téléchargements du document

208