High Performance Computing : towards better Performance Predictions and Experiments - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Thèse Année : 2021

High Performance Computing : towards better Performance Predictions and Experiments

Calcul haute performance : vers de meilleures prédictions de performance et expériences

Résumé

The scientific community relies more and more on computations, notably for numerical simulation and data processing. While many scientific advances were made possible by the technological progress of computers, additional performance gains are still required for larger scale projects.The race for performance is addressed with a growing hardware and software complexity, which in turn increases the performance variability. This can make the experimental study of performance extremely challenging, raising concerns of reproducibility of the experiments, akin to the problems already faced by natural sciences.Our contributions are twofold. First, we present a methodology for predicting the performance of parallel non-trivial applications through simulation. We describe several models for communications and computations, with an increasing complexity. We compare these models through an extensive validation by matching our predictions with real experiments. This validation shows that modeling the spatial and temporal variability of the platform is essential for faithful predictions. As a consequence, predictions require careful sensibility analysis accounting for the uncertainty on the resource models, which we illustrate through several case studies. Second, we present the lessons learned while making the numerous experiments required in the first part and how we improved our methodology. We show that measurements can suffer from multiple experimental biases and we explain how some of these biases can be overcome. We also present how we implemented systematic performance non-regression testing, which allowed us to detect many significant changes of the platform throughout this thesis.
La communauté scientifique s'appuie de plus en plus sur les calculs, notamment pour la simulation numérique et le traitement des données. Alors que de nombreuses avancées scientifiques ont été rendues possibles par les progrès technologiques des ordinateurs, des gains de performance supplémentaires sont encore nécessaires pour les projets à plus grande échelle.La course à la performance est abordée avec une complexité matérielle et logicielle croissante, qui à son tour augmente la variabilité des performances. Cela peut rendre l'étude expérimentale de la performance extrêmement difficile, ce qui soulève des préoccupations quant à la reproductibilité des expériences, de manière similaire aux problèmes déjà rencontrés par les sciences naturelles.Nos contributions sont doubles. Tout d'abord, nous présentons une méthodologie pour prédire les performances d'applications parallèles non triviales par la simulation. Nous décrivons plusieurs modèles de communications et de calculs, avec une complexité croissante. Nous comparons ces modèles via une validation approfondie en faisant correspondre nos prédictions avec des expériences réelles. Cette validation montre que la modélisation de la variabilité spatiale et temporelle de la plateforme est essentielle pour les prédictions. En conséquence, les prévisions requièrent une analyse de sensibilité minutieuse tenant compte de l'incertitude sur les modèles de ressources, que nous illustrons à travers plusieurs études de cas. Par la suite, nous présentons les leçons apprises lors des nombreuses expériences menées dans la première partie et comment nous avons amélioré notre méthodologie. Nous montrons que les mesures peuvent souffrir de multiples biais expérimentaux et nous expliquons comment certains de ces biais peuvent être surmontés. Nous présentons également comment nous avons mis en œuvre des tests systématiques de non-régression des performances, qui nous ont permis de détecter de nombreux changements significatifs de la plateforme tout au long de cette thèse.
Fichier principal
Vignette du fichier
CORNEBIZE_2021_archivage.pdf (13.08 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03328956 , version 1 (30-08-2021)
tel-03328956 , version 2 (30-08-2021)

Identifiants

  • HAL Id : tel-03328956 , version 2

Citer

Tom Cornebize. High Performance Computing : towards better Performance Predictions and Experiments. Modeling and Simulation. Université Grenoble Alpes [2020-..], 2021. English. ⟨NNT : 2021GRALM016⟩. ⟨tel-03328956v2⟩
379 Consultations
322 Téléchargements

Partager

Gmail Facebook X LinkedIn More