Clustering et sélection de variables sur des données génétiques

Dominique Bontemps; Wilson Toussile

Communication Dans Un Congrès Année : 2010

Clustering et sélection de variables sur des données génétiques

(1) , (1)

Dominique Bontemps

Fonction : Auteur
PersonId : 743708
IdHAL : dominique-bontemps
ORCID : 0009-0007-5460-7050

Laboratoire de Mathématiques d'Orsay

Wilson Toussile

Fonction : Auteur

Laboratoire de Mathématiques d'Orsay

Résumé

Nous nous intéressons au problème d'estimer les variables pertinentes et le nombre de composantes d'une loi de mélange pour des données génotypiques multilocus. Un critère du maximum de vraisemblance pénalisé est proposé, et une inégalité oracle non-asymptotique est obtenue. En outre, sous des conditions faibles portant sur la distribution qui a généré les observations, le modèle sélectionné est asymptotiquement consistent. D'un point de vue pratique, la pénalité est définie à une constante multiplicative près, et celle-ci est calibrée par l'heuristique de pente. Sur des données simulées la procédure de sélection fait mieux que des critères classiques tels que BIC et AIC. Le nouveau critère apporte une réponse à la question~: "Quel critère choisir en fonction de la taille de l'échantillon ?".

Domaines

Statistiques [math.ST] Théorie [stat.TH]

Fichier principal

p131.pdf (78.44 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Conférence Sfds-Hal : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00494722

Soumis le : jeudi 24 juin 2010-08:54:23

Dernière modification le : vendredi 5 avril 2024-15:45:33

Archivage à long terme le : lundi 22 octobre 2012-14:45:23

Dates et versions

inria-00494722 , version 1 (24-06-2010)

Identifiants

HAL Id : inria-00494722 , version 1

Citer

Dominique Bontemps, Wilson Toussile. Clustering et sélection de variables sur des données génétiques. 42èmes Journées de Statistique, 2010, Marseille, France, France. ⟨inria-00494722⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS SFDS10 LM-ORSAY UNIV-PARIS-SACLAY GS-MATHEMATIQUES

61 Consultations

99 Téléchargements

Clustering et sélection de variables sur des données génétiques

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager