Comparaisons de différents algorithmes pour le modèle des blocs latents

Vincent Brault 1, 2, * Gilles Celeux 2 Christine Keribin 1, 2
* Auteur correspondant
2 SELECT - Model selection in statistical learning
Inria Saclay - Ile de France, LMO - Laboratoire de Mathématiques d'Orsay, CNRS - Centre National de la Recherche Scientifique : UMR
Résumé : Le but de la classification est de découper des ensembles de données en sous-ensembles les plus homogènes possibles, c'est-à-dire que les membres d'une classe doivent plus se ressembler entre eux qu'aux membres des autres classes. Le problème se complique lorsque le statisticien souhaite définir des groupes à la fois sur les individus et sur les variables. Le modèle des blocs latents définit une loi pour chaque croisement de classe d'objets et de classe de variables, et les observations sont supposées indépendantes conditionnellement au choix de ces classes. Toutefois, il est impossible de factoriser la loi jointe des labels empêchant le calcul de la logvraisemblance et l'utilisation de l'algorithme EM. Plusieurs méthodes et critères existent pour retrouver ces partitions, certains fréquentistes, d'autres bayésiens, certains stochastiques, d'autres non. Dans cet exposé, nous comparerons quatre méthodes d'initialisations combinées avec quatre algorithmes dérivés de l'algorithme EM. Nous montrerons sur des données simulées l'intérêt de l'échantillonneur de Gibbs par rapport à l'algorithme SEM ainsi que la régularisation bayésienne de l'algorithme VEM. De plus, avec suffisamment d'observations, nous verrons que l'algorithme CEM obtient des résultats proches des autres. Ensuite, nous regarderons les différences observées sur les données réelles notamment grâce à une sélection de modèle à l'aide du critère ICL. Enfin, nous proposerons une méthodologie pour traiter le modèle des blocs latents.
Type de document :
Communication dans un congrès
Séminaire AgroSelect, Oct 2013, Paris, France. 2013
Liste complète des métadonnées

https://hal.inria.fr/hal-00924404
Contributeur : Vincent Brault <>
Soumis le : lundi 6 janvier 2014 - 17:13:39
Dernière modification le : jeudi 11 janvier 2018 - 06:22:14

Identifiants

  • HAL Id : hal-00924404, version 1

Collections

Citation

Vincent Brault, Gilles Celeux, Christine Keribin. Comparaisons de différents algorithmes pour le modèle des blocs latents. Séminaire AgroSelect, Oct 2013, Paris, France. 2013. 〈hal-00924404〉

Partager

Métriques

Consultations de la notice

282