Skip to Main content Skip to Navigation
Conference papers

CorReg : Préselection de variables en régression linéaire avec fortes corrélations

Clément Théry 1, 2, 3 Christophe Biernacki 1, 2 Gaétan Loridant 3
2 MODAL - MOdel for Data Analysis and Learning
Inria Lille - Nord Europe, LPP - Laboratoire Paul Painlevé - UMR 8524, METRICS - Evaluation des technologies de santé et des pratiques médicales - ULR 2694, Polytech Lille - École polytechnique universitaire de Lille, Université de Lille, Sciences et Technologies
Résumé : Résumé. La régression linéaire est pénalisée par l'usage de variables explicatives corrélées, situation fréquente pour les bases de données d'origine industrielleò u les corrélations sont nombreuses et enen a des estimateurs de forte variance. Lemo ele proposé ex-plicite les corrélations présentes sous la forme d'une famille de régressions linéaires en-tre covariables, permettant d'obtenir par marginalisation unmo ele de régression parci-monieux libéré des corrélations, facilement interprétable et consistant en une présélection de variables. La structure de corrélations est estiméè a l'aide d'un algorithme MCMC qui repose sur unmo ele génératif complet. Le package CorReg (sur le CRAN) permet la mise en oeuvre en R de cette méthode qui sera illustrée sur données simulées et sur données réelles issues de l'industrie sidérurgique. Mots-clés. Régression, corrélations, industrie, sélection de variables,mo eles génératifs Abstract. Linear regression is generally penalized by correlated covariates, frequent situation for industrial datasets, in particular impacting the variance of the estimators. The proposed generative model consists in modeling explicitly the correlations with a family of linear regressions between the covariates permitting to obtain by marginalization a parsimonious correlation-free regression model, easily understandable and that can be seen as a variable preselection. The structure of correlations is found with an MCMC algorithm. An R package (CorReg) available on the CRAN implements this new method which will be illustrated on both simulated datasets and real-life datasets from steel industry.
Document type :
Conference papers
Complete list of metadata

Cited literature [7 references]  Display  Hide  Download

https://hal.inria.fr/hal-01092964
Contributor : Clément Théry <>
Submitted on : Tuesday, December 9, 2014 - 6:24:03 PM
Last modification on : Friday, November 27, 2020 - 2:18:02 PM
Long-term archiving on: : Tuesday, March 10, 2015 - 12:20:37 PM

File

submission_112.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01092964, version 1

Collections

Citation

Clément Théry, Christophe Biernacki, Gaétan Loridant. CorReg : Préselection de variables en régression linéaire avec fortes corrélations. 46° journées de statistiques, SFDS, Jun 2014, Rennes, France. ⟨hal-01092964⟩

Share

Metrics

Record views

303

Files downloads

571