Penalized regression combining the L1 norm and a correlation based penalty. - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2008

Penalized regression combining the L1 norm and a correlation based penalty.

Résumé

La sélection de variables peut être difficile, en particulier dans les situations où un grand nombre de variables explicatives est disponible, avec la présence possible de corrélations élevées comme dans le cas des données d'expression génétique. Dans cet article, nous proposons une nouvelle méthode de régression linéaire pénalisée, appelée l'elastic corr-net, pour simultanément estimer les paramètres inconnus et sélectionner les variables importantes. De plus, elle encourage un effet de groupe: les variables fortement corrélées ont tendance à être toutes incluses ou toutes exclues du modèle. La méthode est fondée sur les moindres carrés pénalisés avec une pénalité qui, comme la pénalité $L_{1}$, rétrécit certains coefficients exactement vers zéro. En outre, cette pénalité contient un terme qui lie explicitement la force de pénalisation à la corrélation entre les variables explicatives. Pour montrer les avantages de notre approche par rapport aux méthodes les plus concurrentes, une étude détaillée de simulation est réalisée en moyenne et grande dimension. Enfin, nous appliquons la méthodologie à trois ensembles de données réelles. Le résultat principal de notre méthode est l'identification du cadre où l'elastic-net est moins performante : en effet, en termes des erreurs de prédiction et d'estimation, notre méthode paraît plus adaptée aux situations du type $p\leq n$ (le nombre de variables est inférieure à la taille de l'échantillon). Si $p\gg n,$ notre méthode reste compétive et elle permet aussi de sélectionner plus que $n$ variables.
Fichier principal
Vignette du fichier
RR-6746.pdf (355.67 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

inria-00343635 , version 1 (02-12-2008)

Identifiants

  • HAL Id : inria-00343635 , version 1

Citer

Mohammed El Anbari, Abdallah Mkhadri. Penalized regression combining the L1 norm and a correlation based penalty.. [Research Report] RR-6746, INRIA. 2008, pp.32. ⟨inria-00343635⟩
330 Consultations
1018 Téléchargements

Partager

Gmail Facebook X LinkedIn More