VSURF : un package R pour la sélection de variables à l'aide de forêts aléatoires

Robin Genuer 1, 2, * Jean-Michel Poggi 3, 4 Christine Tuleau-Malot 5
* Auteur correspondant
2 SISTM - Statistics In System biology and Translational Medicine
Epidémiologie et Biostatistique [Bordeaux], Inria Bordeaux - Sud-Ouest
3 SELECT - Model selection in statistical learning
Inria Saclay - Ile de France, LMO - Laboratoire de Mathématiques d'Orsay, CNRS - Centre National de la Recherche Scientifique : UMR
Résumé : Dans cette présentation, nous décrivons VSURF, un package R. Basé sur les forêts aléatoires, il fournit deux sous-ensembles de variables associé a deux objectifs de sélection de variables pour des problèmes de régression et de classification. Le premier est un sous-ensemble de variables importantes pour l'interprétation. Le second est un sous-ensemble parcimonieux a l'aide duquel on peut faire de bonnes prédictions. La stratégie générale est basée sur un classement préliminaire des variables donné par l'indice d'importance des forêts aléatoires, puis utilise un algorithme d'introductions ascendantes de variables pas a pas. Les deux sous-ensembles peuvent être obtenus automatiquement en gardant le comportement par défaut du package, mais peuvent également être réglés en jouant sur plusieurs paramètres. Nous illustrons la méthode sur plusieurs jeux de données réelles.
Type de document :
Communication dans un congrès
46èmes Journées de Statistique, 2014, Rennes, France
Liste complète des métadonnées

Littérature citée [13 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01096233
Contributeur : Robin Genuer <>
Soumis le : mercredi 17 décembre 2014 - 09:39:03
Dernière modification le : jeudi 3 mai 2018 - 13:32:58
Document(s) archivé(s) le : lundi 23 mars 2015 - 14:40:49

Fichier

vsurf_jds2014_6p.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01096233, version 1

Citation

Robin Genuer, Jean-Michel Poggi, Christine Tuleau-Malot. VSURF : un package R pour la sélection de variables à l'aide de forêts aléatoires. 46èmes Journées de Statistique, 2014, Rennes, France. 〈hal-01096233〉

Partager

Métriques

Consultations de la notice

995

Téléchargements de fichiers

514