Prévision séquentielle par agrégation d'ensemble : application à des prévisions météorologiques assorties d'incertitudes

Paul Baudin

Résumé

In this thesis, we are interested in sequential prediction problems. As a previsionist, we seek to predict, day after day, a physical variable, for instance the pressure at a given location. Several elementary predictors, from different simulations are made available to resolve this prediction problem. Nowadays indeed, previsionnists always devise several physical and thermodynamical models useful in various contexts. Rather than selecting one of these simulations, we seek to weigh them with coefficients. Each weight may be linked to the past performance of the simulation, in a more or less intuitive fashion. To devise this weights, we rely on the formalization and the theoretical results given by the individual sequences , a branch of machine learning. This domain indeed offers algorithms, that is automatic strategies, drawing experience from the past. The automatization is a valuable asset since it implies little to no maintenance cost as soon as the algorithm is integrated in the programs. Furthermore, these algorithms are given with strong theoretical guarantees, valid in a wide range of situation. The analysis of these algorithms implies that, even in the worst case scenario, the quantitativ performances of prediction are only slightly deteriorated. Firstly, we explore a theoretical part of the problem : we study online prediction of bounded stationary ergodic processes. Taking examples from the regression trees, we develop an auto-regressiv strategy, only using the past observations. Then we show that these strategies are asymptotically optimal in a stochastic setting and we then draw links with existing methods. Secondly, we expose sequential aggregation methods of meteorolog ical simulation of mean sea level pressure and of wind speed 10 meter above ground. The aim is to obtain, with a ridge regression of the weights, better prediction performance than a reference prediction, namely the deterministic prediction. This goal is attained on the given dataset with performance gains at 18 % on the mean sea level pressure and of 9 % on the wind speed. In the last chapter, we present the tools used in a probabilistic prediction framework, before using two algorithms on the aforementioned datasets. First, we explain the relevancy of probabilistic prediction and expose this domain's state of the art and the second part presents popular probabilistic scores. The used algorithm are then thoroughly descibed. The most automatized results give a relative performance gain of 18 % for the pressure variable and of 13 % for the wind speed variable.

Dans cette thèse, nous nous intéressons à des problèmes de prévision tour après tour. Nous endossons le rôle d'un prévisionniste et cherchons à prévoir une grandeur physique, par exemple la pression, toutes les vingt-quatre heures en un point donné. À cette fin, nous disposons d'un grand nombre de prévisions distinctes de cette grandeur, issues de simulations concurrentes. De nos jours, en effet, les prévisio nnistes ont systématiquement à leur dispositions plusieurs modèles physiques et thermodynamiques aux performances et aux mérites différents. Plutôt que de sélectionner une seule de ces simulations, nous cherchons à les pondérer, c'est-à-dire à assigner un coefficient à chacune d'entre elles. Selon les cas, ce coefficient peut être lié ou non de manière intuitive aux performances de la simulation dans le passé. Pour réaliser une telle pondération, nous nous appuyons sur la formalisation et les résultats théoriques offerts par le cadre de suite individuelle, une branche de l'apprentissage statistique. Ce domaine propose en effet des algorithmes, c'est-à-dire des stratégies automatiques, qui tirent de l'expérience du passé afin de prévoir l'avenir, et s'appuient éventuellement sur plusieurs prédicteurs élémentaires. L'automatisation de ces stratégies les rend séduisantes en pratique puisque, une fois intégrées dans les codes de prévision, il n'est plus besoin de les paramétrer manuellement. Mieux encore, ces algorithmes bénéficient souvent de garanties théoriques valables dans un cadre très général et sont, à ce titre, qualifiées de robustes. L'analyse théorique de ces algorithmes assure que, même dans le pire des cas, les performances quantitatives de la prévision ne sont que peu détériorées. Dans un premier temps, nous explorons un volet théorique du problème : nous y étudions la prévision séquentielle de processus bornés stationnaires ergodiques. Inspiré par les arbres aléatoires, nous y développons une stratégie de prévision auto-régressive, qui utilise uniquement les observations passées. Puis nous montrons que les stratégies envisagées sont asymptotiquement optimales dans un cadre stochastique plus classique et faisons ainsi le lien avec des méthodes existantes. Dans un second temps, nous présentons les algorithmes d'agrégation séquentielle des simulations météorologiques de pression réduite au niveau de la mer d'une part et de no rme de la vitesse du vent à dix mètres au-dessus du sol d'autre part. L'objectif est d'obtenir, grâce à l'algorithme ridge de régression régularisée sur les poids, de meilleures performances en prévision que la prévision de référence dite déterministe. Objectif atteint sur le jeu de données : les gains de performance sont de 18 % pour la pression et de 9 % pour la vitesse du vent. Dans le dernier chapitre, nous présentons les enjeux et les outils de la prévision probabiliste avant de mettre en pratique deux algorithmes sur les jeux de données précédents. La première partie motive l'utilisation de prévisions probabilistes et expose l'état de l'art dans ce domaine et la seconde partie présente des scores probabilistes historiques et populaires. Les algorithmes utilisés sont ensuite décrits dans la troisième partie. Les résultats pratiques les plus automatisés possibles se traduisent par un gain de performance de 18 % pour la pression et de 13 % pour la vitesse du vent.

Sequential prediction with ensemble aggregation: application to meteorological prediction with uncertainties

Prévision séquentielle par agrégation d'ensemble : application à des prévisions météorologiques assorties d'incertitudes

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager