Hold-out and Aggregated hold-out - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Thèse Année : 2020

Hold-out and Aggregated hold-out

Hold-out et agrégation d'hold-out

Résumé

In statistics, it is often necessary to choose between different estimators (estimator selection) or to combine them (agregation). For risk-minimization problems, a simple method, called hold-out or validation, is to leave out some of the data, using it to estimate the risk of the estimators, in order to select the estimator with minimal risk. This method requires the statistician to arbitrarily select a subset of the data to form the "validation sample". The influence of this choice can be reduced by averaging several hold-out estimators (Aggregated hold-out, Agghoo). In this thesis, the hold-out and Agghoo are studied in various settings. First, theoretical guarantees for the hold-out (and Agghoo) are extended to two settings where the risk is unbounded: kernel methods and sparse linear regression. Secondly, a comprehensive analysis of the risk of both methods is carried out in a particular case: least-squares density estimation using Fourier series. It is proved that aggregated hold-out can perform better than the best estimator in the given collection, something that is clearly impossible for a procedure, such as hold-out or cross-validation, which selects only one estimator.
En statistiques, il est fréquent d'avoir à choisir entre plusieurs estimateurs (sélection d'estimateurs) ou à les combiner. Cela permet notamment d'adapter la complexité d'un modèle statistique en fonction des données (compromis biais-variance). Pour les problèmes de minimisation de risque, une méthode simple et générale, la validation ou hold-out, consiste à consacrer une partie de l'échantillon à l'estimation du risque des estimateurs, dans le but de choisir celui de risque minimal. Cette procédure nécessite de choisir arbitrairement un sous-échantillon "de validation". Afin de réduire l'influence de ce choix, il est possible d'agréger plusieurs estimateurs hold-out en les moyennant (Agrégation d'hold-out). Dans cette thèse, le hold-out et l'agrégation d'hold-out sont étudiés dans différents cadres. Dans un premier temps, les garanties théoriques sur le hold-out sont étendues à des cas où le risque n'est pas borné: les méthodes à noyaux et la régression linéaire parcimonieuse. Dans un deuxième temps, une étude précise du risque de ces méthodes est menée dans un cadre particulier: l'estimation de densité L² par des séries de Fourier. Il est démontré que l'agrégation de hold-out peut faire mieux que le meilleur des estimateurs qu'elle agrège, ce qui est impossible pour une méthode qui, comme le hold-out ou la validation croisée, sélectionne un seul estimateur.
Fichier principal
Vignette du fichier
92740_MAILLARD_2020_archivage.pdf (2.93 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-02971403 , version 1 (19-10-2020)

Identifiants

  • HAL Id : tel-02971403 , version 1

Citer

Guillaume Maillard. Hold-out and Aggregated hold-out. Statistics [math.ST]. Université Paris-Saclay, 2020. English. ⟨NNT : 2020UPASM005⟩. ⟨tel-02971403⟩
271 Consultations
238 Téléchargements

Partager

Gmail Facebook X LinkedIn More