Skip to Main content Skip to Navigation
Reports

Penalized regression combining the L1 norm and a correlation based penalty.

Résumé : La sélection de variables peut être difficile, en particulier dans les situations où un grand nombre de variables explicatives est disponible, avec la présence possible de corrélations élevées comme dans le cas des données d'expression génétique. Dans cet article, nous proposons une nouvelle méthode de régression linéaire pénalisée, appelée l'elastic corr-net, pour simultanément estimer les paramètres inconnus et sélectionner les variables importantes. De plus, elle encourage un effet de groupe: les variables fortement corrélées ont tendance à être toutes incluses ou toutes exclues du modèle. La méthode est fondée sur les moindres carrés pénalisés avec une pénalité qui, comme la pénalité $L_{1}$, rétrécit certains coefficients exactement vers zéro. En outre, cette pénalité contient un terme qui lie explicitement la force de pénalisation à la corrélation entre les variables explicatives. Pour montrer les avantages de notre approche par rapport aux méthodes les plus concurrentes, une étude détaillée de simulation est réalisée en moyenne et grande dimension. Enfin, nous appliquons la méthodologie à trois ensembles de données réelles. Le résultat principal de notre méthode est l'identification du cadre où l'elastic-net est moins performante : en effet, en termes des erreurs de prédiction et d'estimation, notre méthode paraît plus adaptée aux situations du type $p\leq n$ (le nombre de variables est inférieure à la taille de l'échantillon). Si $p\gg n,$ notre méthode reste compétive et elle permet aussi de sélectionner plus que $n$ variables.
Complete list of metadata

https://hal.inria.fr/inria-00343635
Contributor : Mohammed El Anbari <>
Submitted on : Tuesday, December 2, 2008 - 1:36:14 PM
Last modification on : Wednesday, September 16, 2020 - 5:04:37 PM
Long-term archiving on: : Tuesday, June 28, 2011 - 4:13:27 PM

Files

RR-6746.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : inria-00343635, version 1

Collections

Citation

Mohammed El Anbari, Abdallah Mkhadri. Penalized regression combining the L1 norm and a correlation based penalty.. [Research Report] RR-6746, INRIA. 2008, pp.32. ⟨inria-00343635⟩

Share

Metrics

Record views

523

Files downloads

1332