CorReg : Préselection de variables en régression linéaire avec fortes corrélations

Clément Théry 1, 2, 3 Christophe Biernacki 1, 2 Gaétan Loridant 3
2 MODAL - MOdel for Data Analysis and Learning
Inria Lille - Nord Europe, LPP - Laboratoire Paul Painlevé - UMR 8524, CERIM - Santé publique : épidémiologie et qualité des soins-EA 2694, Polytech Lille, Université de Lille 1, IUT’A
Résumé : Résumé. La régression linéaire est pénalisée par l'usage de variables explicatives corrélées, situation fréquente pour les bases de données d'origine industrielleò u les corrélations sont nombreuses et enen a des estimateurs de forte variance. Lemo ele proposé ex-plicite les corrélations présentes sous la forme d'une famille de régressions linéaires en-tre covariables, permettant d'obtenir par marginalisation unmo ele de régression parci-monieux libéré des corrélations, facilement interprétable et consistant en une présélection de variables. La structure de corrélations est estiméè a l'aide d'un algorithme MCMC qui repose sur unmo ele génératif complet. Le package CorReg (sur le CRAN) permet la mise en oeuvre en R de cette méthode qui sera illustrée sur données simulées et sur données réelles issues de l'industrie sidérurgique. Mots-clés. Régression, corrélations, industrie, sélection de variables,mo eles génératifs Abstract. Linear regression is generally penalized by correlated covariates, frequent situation for industrial datasets, in particular impacting the variance of the estimators. The proposed generative model consists in modeling explicitly the correlations with a family of linear regressions between the covariates permitting to obtain by marginalization a parsimonious correlation-free regression model, easily understandable and that can be seen as a variable preselection. The structure of correlations is found with an MCMC algorithm. An R package (CorReg) available on the CRAN implements this new method which will be illustrated on both simulated datasets and real-life datasets from steel industry.
Type de document :
Communication dans un congrès
46° journées de statistiques, Jun 2014, Rennes, France
Liste complète des métadonnées

Littérature citée [7 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01092964
Contributeur : Clément Théry <>
Soumis le : mardi 9 décembre 2014 - 18:24:03
Dernière modification le : mardi 3 juillet 2018 - 11:49:00
Document(s) archivé(s) le : mardi 10 mars 2015 - 12:20:37

Fichier

submission_112.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01092964, version 1

Collections

Citation

Clément Théry, Christophe Biernacki, Gaétan Loridant. CorReg : Préselection de variables en régression linéaire avec fortes corrélations. 46° journées de statistiques, Jun 2014, Rennes, France. 〈hal-01092964〉

Partager

Métriques

Consultations de la notice

207

Téléchargements de fichiers

195