CorReg : Préselection de variables en régression linéaire avec fortes corrélations - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2014

CorReg : Préselection de variables en régression linéaire avec fortes corrélations

Résumé

Résumé. La régression linéaire est pénalisée par l'usage de variables explicatives corrélées, situation fréquente pour les bases de données d'origine industrielleò u les corrélations sont nombreuses et enen a des estimateurs de forte variance. Lemo ele proposé ex-plicite les corrélations présentes sous la forme d'une famille de régressions linéaires en-tre covariables, permettant d'obtenir par marginalisation unmo ele de régression parci-monieux libéré des corrélations, facilement interprétable et consistant en une présélection de variables. La structure de corrélations est estiméè a l'aide d'un algorithme MCMC qui repose sur unmo ele génératif complet. Le package CorReg (sur le CRAN) permet la mise en oeuvre en R de cette méthode qui sera illustrée sur données simulées et sur données réelles issues de l'industrie sidérurgique. Mots-clés. Régression, corrélations, industrie, sélection de variables,mo eles génératifs Abstract. Linear regression is generally penalized by correlated covariates, frequent situation for industrial datasets, in particular impacting the variance of the estimators. The proposed generative model consists in modeling explicitly the correlations with a family of linear regressions between the covariates permitting to obtain by marginalization a parsimonious correlation-free regression model, easily understandable and that can be seen as a variable preselection. The structure of correlations is found with an MCMC algorithm. An R package (CorReg) available on the CRAN implements this new method which will be illustrated on both simulated datasets and real-life datasets from steel industry.
Fichier principal
Vignette du fichier
submission_112.pdf (295.77 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01092964 , version 1 (09-12-2014)

Identifiants

  • HAL Id : hal-01092964 , version 1

Citer

Clément Théry, Christophe Biernacki, Gaétan Loridant. CorReg : Préselection de variables en régression linéaire avec fortes corrélations. 46° journées de statistiques, SFDS, Jun 2014, Rennes, France. ⟨hal-01092964⟩
171 Consultations
233 Téléchargements

Partager

Gmail Facebook X LinkedIn More