Local asymptotics of cross-validation around the optimal model - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Pré-Publication, Document De Travail Année : 2022

Local asymptotics of cross-validation around the optimal model

Résumé

When used to estimate the risk of a single predictor, the behaviour of cross-validation can often be understood through a central limit theorem. In model selection however, cross-validation is applied simultaneously to many different estimators in order to compare them. Thus, analyzing CV in this context requires a multi-dimensional or functional CLT. Since the mean and variance may vary widely over the model collection, careful attention must be paid to how the process is centered and scaled. In this article, we conduct the first such analysis of cross-validation in the context of least-squares density estimation by Fourier polynomials. Our results characterize the fluctuations of some CV criteria in the vicinity of the optimal model, at the critical scale at which they become significant. Asymptotically, CV is approximately the sum of a convex function and a symmetrized, time-changed Wiener process. For a slowly increasing number of folds $V$, the variance decreases proportionally to $\frac{1}{V}$: the folds are asymptotically independent. This analysis presents some unusual challenges which we overcome through a combination of tools including strong approximation, concentration inequalities and coupling of Gaussian vectors.
Lorsqu'elle est utilisée pour estimer le risque d'un uniaue prédicteur, le comportement de la validation croisée peut s'analyser à travers un théorème central limite. En sélection de modèles cependant, la validation croisée est appliquée simultanément à toute une famille d'estimateurs afin de les comparer. Un TCL multivarié ou fonctionnel est alors nécessaire. Comme l'espérance et la variance peuvent être très différentes d'un modèle à l'autre, il faut soigneusement choisir l'échelle et le centrage du processus. Dans cet article, nous menons à bien la première étude de ce type, dans le cadre de l'estimation de densité $L^2$ par des polynômes de Fourier. Nos résultats caractérisent les fluctuations de certains critères de validation croisée au voisinage du modèle optimal, à l'échelle critique où elles deviennent significatives. Aymptotiquement, la VC s'exprime comme la somme d'une fonction convexe et d'un mouvement brownien changé de temps. Pour un nombre de folds $V$ lentement croissant, la variance décroît en $\frac{1}{V}$: les folds sont asymptotiquement indépendants. L'analyse présente des difficultés techniques originales que nous surmontons en utilisant divers outils dont l'approximation forte, les inégalités de concentration et le couplage entre vecteurs Gaussiens.
Fichier principal
Vignette du fichier
approx_loi_en_v2.pdf (704.36 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03263396 , version 1 (17-06-2021)
hal-03263396 , version 2 (30-11-2022)

Identifiants

Citer

Guillaume Maillard. Local asymptotics of cross-validation around the optimal model. 2022. ⟨hal-03263396v2⟩
76 Consultations
55 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More