Discrétisation multivariée non supervisée

Résumé : Soit un ensemble de p variables continues X = (X1,X2, ...,Xp) et n observations de chacune de ces variables. Nous souhaitons discrétiser ces variables pour obtenir un ensemble de p variables binaires. Si la discrétisation doit prendre en compte de la présence d'une variable dépendante Y , et d'un éventuel modèle liant Y à X, alors on procède à une discrétisation supervisée. Dans le cas contraire on parle de discrétisation non supervisée et c'est celle que nous abordons ici. Nous proposons ici une nouvelle approche dans laquelle nous suggérons une discrétisation où l'on essaie de préserver la corrélation entre les variables continues. Notre approche met en oeuvre les idées suivantes: - Utilisation de l'information mutuelle pour mesurer la dépendance entre les variables discrètes obtenues. - La recherche des seuils de discrétisation est posée comme problème d'optimisation d'une fonction à p variables (les seuils), mesurant une distance entre la matrice de corrélation des données initiales et la matrice d'information mutuelle des données discrétisées. - Nous avons proposé deux solutions à ce problème d'optimisation. L'une faisant appel à un algorithme du type simplexe (Koshel (2002)), l'autre basée sur un schéma de recuit simulé que nous avons développé. L'information mutuelle pourrait être utilisée à la place de la corrélation dans le cas continu pour des valeurs de p > 3, et d'autre part, dans le cas gaussien celle ci peut être approchée par une transformation directe de la corrélation (Cover (1991), Gray (1990)). Les résultats obtenus par notre approche sont comparés à des approches exhaustives pour la recherche de meilleurs seuils sur des données bidimensionnelles simulées dans un cadre gaussien et uniforme.
Type de document :
Communication dans un congrès
41èmes Journées de Statistique, SFdS, Bordeaux, 2009, Bordeaux, France, France. 2009
Liste complète des métadonnées

https://hal.inria.fr/inria-00386795
Contributeur : Conférence Jds2009 <>
Soumis le : vendredi 22 mai 2009 - 09:21:58
Dernière modification le : jeudi 18 janvier 2018 - 02:09:54

Identifiants

  • HAL Id : inria-00386795, version 1

Collections

Citation

Badih Ghattas. Discrétisation multivariée non supervisée. 41èmes Journées de Statistique, SFdS, Bordeaux, 2009, Bordeaux, France, France. 2009. 〈inria-00386795〉

Partager

Métriques

Consultations de la notice

220