Estimation et sélection de modèle pour le modèle des blocs latents

Vincent Brault 1, 2
2 SELECT - Model selection in statistical learning
Inria Saclay - Ile de France, LMO - Laboratoire de Mathématiques d'Orsay, CNRS - Centre National de la Recherche Scientifique : UMR
Résumé : Le but de la classification est de partager des ensembles de données en sous-ensembles les plus homogènes possibles, c'est-à-dire que les membres d'une classe doivent plus se ressembler entre eux qu'aux membres des autres classes. Le problème se complique lorsque le statisticien souhaite définir des groupes à la fois sur les individus et sur les variables.Le modèle des blocs latents définit une loi pour chaque croisement de classe d'objets et de classe de variables, et les observations sont supposées indépendantes conditionnellement au choix de ces classes. Toutefois, il est impossible de factoriser la loi jointe des labels empêchant le calcul de la logvraisemblance et l'utilisation de l'algorithme EM. Plusieurs méthodes et critères existent pour retrouver ces partitions, certains fréquentistes, d'autres bayésiens, certains stochastiques, d'autres non.Dans cette thèse, nous avons d'abord proposé des conditions suffisantes pour obtenir l'identifiabilité.Dans un second temps, nous avons étudié deux algorithmes proposés pour contourner le problème de l'algorithme EM : VEM de Govaert et Nadif (2008) et SEM-Gibbs de Keribin, Celeux et Govaert (2010). En particulier, nous avons analysé la combinaison des deux et mis en évidence des raisons pour lesquelles les algorithmes dégénèrent (terme utilisé pour dire qu'ils renvoient des classes vides).En choisissant des lois a priori judicieuses, nous avons ensuite proposé une adaptation bayésienne permettant de limiter ce phénomène. Nous avons notamment utilisé un échantillonneur de Gibbs dont nous proposons un critère d'arrêt basé sur la statistique de Brooks-Gelman (1998).Nous avons également proposé une adaptation de l'algorithme Largest Gaps (Channarond et al. (2012)). En reprenant leurs démonstrations, nous avons démontré que les estimateurs des labels et des paramètres obtenus sont consistants lorsque le nombre de lignes et de colonnes tendent vers l'infini. De plus, nous avons proposé une méthode pour sélectionner le nombre de classes en ligne et en colonne dont l'estimation est également consistante à condition que le nombre de ligne et de colonne soit très grand.Pour estimer le nombre de classes, nous avons étudié le critère ICL (Integrated Completed Likelihood) dont nous avons proposé une forme exacte. Après avoir étudié l'approximation asymptotique, nous avons proposé un critère BIC (Bayesian Information Criterion) puis nous conjecturons que les deux critères sélectionnent les mêmes résultats et que ces estimations seraient consistantes ; conjecture appuyée par des résultats théoriques et empiriques.Enfin, nous avons comparé les différentes combinaisons et proposé une méthodologie pour faire une analyse croisée de données.
Type de document :
Thèse
Statistiques [math.ST]. Université Paris Sud - Paris XI, 2014. Français. 〈NNT : 2014PA112238〉
Liste complète des métadonnées

Littérature citée [126 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/tel-01090340
Contributeur : Vincent Brault <>
Soumis le : mercredi 3 décembre 2014 - 13:41:16
Dernière modification le : jeudi 11 janvier 2018 - 06:22:14
Document(s) archivé(s) le : samedi 15 avril 2017 - 02:36:53

Identifiants

  • HAL Id : tel-01090340, version 1

Collections

Citation

Vincent Brault. Estimation et sélection de modèle pour le modèle des blocs latents. Statistiques [math.ST]. Université Paris Sud - Paris XI, 2014. Français. 〈NNT : 2014PA112238〉. 〈tel-01090340〉

Partager

Métriques

Consultations de la notice

429

Téléchargements de fichiers

208