Clustering et sélection de variables sur des données génétiques

Résumé : Nous nous intéressons au problème d'estimer les variables pertinentes et le nombre de composantes d'une loi de mélange pour des données génotypiques multilocus. Un critère du maximum de vraisemblance pénalisé est proposé, et une inégalité oracle non-asymptotique est obtenue. En outre, sous des conditions faibles portant sur la distribution qui a généré les observations, le modèle sélectionné est asymptotiquement consistent. D'un point de vue pratique, la pénalité est définie à une constante multiplicative près, et celle-ci est calibrée par l'heuristique de pente. Sur des données simulées la procédure de sélection fait mieux que des critères classiques tels que BIC et AIC. Le nouveau critère apporte une réponse à la question~: "Quel critère choisir en fonction de la taille de l'échantillon ?".
Type de document :
Communication dans un congrès
42èmes Journées de Statistique, 2010, Marseille, France, France. 2010
Liste complète des métadonnées

Littérature citée [10 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/inria-00494722
Contributeur : Conférence Sfds-Hal <>
Soumis le : jeudi 24 juin 2010 - 08:54:23
Dernière modification le : jeudi 11 janvier 2018 - 06:12:18
Document(s) archivé(s) le : lundi 22 octobre 2012 - 14:45:23

Fichier

p131.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00494722, version 1

Collections

Citation

Dominique Bontemps, Wilson Toussile. Clustering et sélection de variables sur des données génétiques. 42èmes Journées de Statistique, 2010, Marseille, France, France. 2010. 〈inria-00494722〉

Partager

Métriques

Consultations de la notice

166

Téléchargements de fichiers

120