Clustering et sélection de variables sur des données génétiques - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2010

Clustering et sélection de variables sur des données génétiques

Résumé

Nous nous intéressons au problème d'estimer les variables pertinentes et le nombre de composantes d'une loi de mélange pour des données génotypiques multilocus. Un critère du maximum de vraisemblance pénalisé est proposé, et une inégalité oracle non-asymptotique est obtenue. En outre, sous des conditions faibles portant sur la distribution qui a généré les observations, le modèle sélectionné est asymptotiquement consistent. D'un point de vue pratique, la pénalité est définie à une constante multiplicative près, et celle-ci est calibrée par l'heuristique de pente. Sur des données simulées la procédure de sélection fait mieux que des critères classiques tels que BIC et AIC. Le nouveau critère apporte une réponse à la question~: "Quel critère choisir en fonction de la taille de l'échantillon ?".
Fichier principal
Vignette du fichier
p131.pdf (78.44 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

inria-00494722 , version 1 (24-06-2010)

Identifiants

  • HAL Id : inria-00494722 , version 1

Citer

Dominique Bontemps, Wilson Toussile. Clustering et sélection de variables sur des données génétiques. 42èmes Journées de Statistique, 2010, Marseille, France, France. ⟨inria-00494722⟩
61 Consultations
99 Téléchargements

Partager

Gmail Facebook X LinkedIn More