Penalized regression combining the L1 norm and a correlation based penalty.

Mohammed El Anbari 1, 2 Abdallah Mkhadri 2
1 SELECT - Model selection in statistical learning
Inria Saclay - Ile de France, LMO - Laboratoire de Mathématiques d'Orsay, CNRS - Centre National de la Recherche Scientifique : UMR
Résumé : La sélection de variables peut être difficile, en particulier dans les situations où un grand nombre de variables explicatives est disponible, avec la présence possible de corrélations élevées comme dans le cas des données d'expression génétique. Dans cet article, nous proposons une nouvelle méthode de régression linéaire pénalisée, appelée l'elastic corr-net, pour simultanément estimer les paramètres inconnus et sélectionner les variables importantes. De plus, elle encourage un effet de groupe: les variables fortement corrélées ont tendance à être toutes incluses ou toutes exclues du modèle. La méthode est fondée sur les moindres carrés pénalisés avec une pénalité qui, comme la pénalité $L_{1}$, rétrécit certains coefficients exactement vers zéro. En outre, cette pénalité contient un terme qui lie explicitement la force de pénalisation à la corrélation entre les variables explicatives. Pour montrer les avantages de notre approche par rapport aux méthodes les plus concurrentes, une étude détaillée de simulation est réalisée en moyenne et grande dimension. Enfin, nous appliquons la méthodologie à trois ensembles de données réelles. Le résultat principal de notre méthode est l'identification du cadre où l'elastic-net est moins performante : en effet, en termes des erreurs de prédiction et d'estimation, notre méthode paraît plus adaptée aux situations du type $p\leq n$ (le nombre de variables est inférieure à la taille de l'échantillon). Si $p\gg n,$ notre méthode reste compétive et elle permet aussi de sélectionner plus que $n$ variables.
Type de document :
Rapport
[Research Report] RR-6746, INRIA. 2008, pp.32
Liste complète des métadonnées

https://hal.inria.fr/inria-00343635
Contributeur : Mohammed El Anbari <>
Soumis le : mardi 2 décembre 2008 - 13:36:14
Dernière modification le : jeudi 11 janvier 2018 - 06:22:14
Document(s) archivé(s) le : mardi 28 juin 2011 - 16:13:27

Fichiers

RR-6746.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00343635, version 1

Collections

Citation

Mohammed El Anbari, Abdallah Mkhadri. Penalized regression combining the L1 norm and a correlation based penalty.. [Research Report] RR-6746, INRIA. 2008, pp.32. 〈inria-00343635〉

Partager

Métriques

Consultations de la notice

351

Téléchargements de fichiers

480