Skip to Main content Skip to Navigation
Conference papers

Clustering et sélection de variables sur des données génétiques

Résumé : Nous nous intéressons au problème d'estimer les variables pertinentes et le nombre de composantes d'une loi de mélange pour des données génotypiques multilocus. Un critère du maximum de vraisemblance pénalisé est proposé, et une inégalité oracle non-asymptotique est obtenue. En outre, sous des conditions faibles portant sur la distribution qui a généré les observations, le modèle sélectionné est asymptotiquement consistent. D'un point de vue pratique, la pénalité est définie à une constante multiplicative près, et celle-ci est calibrée par l'heuristique de pente. Sur des données simulées la procédure de sélection fait mieux que des critères classiques tels que BIC et AIC. Le nouveau critère apporte une réponse à la question~: "Quel critère choisir en fonction de la taille de l'échantillon ?".
Complete list of metadata

Cited literature [10 references]  Display  Hide  Download

https://hal.inria.fr/inria-00494722
Contributor : Conférence Sfds-Hal <>
Submitted on : Thursday, June 24, 2010 - 8:54:23 AM
Last modification on : Tuesday, July 6, 2021 - 3:39:39 AM
Long-term archiving on: : Monday, October 22, 2012 - 2:45:23 PM

File

p131.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : inria-00494722, version 1

Collections

Citation

Dominique Bontemps, Wilson Toussile. Clustering et sélection de variables sur des données génétiques. 42èmes Journées de Statistique, 2010, Marseille, France, France. ⟨inria-00494722⟩

Share

Metrics

Record views

197

Files downloads

281