Learning to control large-scale parallel platforms
Apprentissage pour le contrôle de plateformes parallèles à large échelle
Résumé
Providing the computational infrastructure needed to solve complex problems arising
in modern society is a strategic challenge. Organisations usually address this problem
by building extreme-scale parallel and distributed platforms. High Performance
Computing (HPC) vendors race for more computing power and storage capacity,
leading to sophisticated specifi
c Petascale platforms, soon to be Exascale platforms.
These systems are centrally managed using dedicated software solutions called
Resource and Job Management Systems (RJMS). A crucial problem addressed by
this software layer is the job scheduling problem, where the RJMS chooses when and
on which resources computational tasks will be executed. This manuscript provides
ways to adress this scheduling problem. No two platforms are identical. Indeed, the
infrastructure, user behavior and organization’s goals all change from one system
to the other. We therefore argue that scheduling policies should be adaptive to the
system’s behavior. In this manuscript, we provide multiple ways to achieve this
adaptivity. Through an experimental approach, we study various trade-offs between
the complexity of the approach, the potential gain, and the risks taken.
Fournir les infrastructures de calcul nécessaires à la résolution des problèmes com-
plexes de la société moderne constitue un défistratégique. Les organisations y
répondent classiquement en mettant en place de larges infrastructures de calcul
parallèle et distribué. Les vendeurs de syst‘emes de Calcul Hautes Performances
sont incités par la compétition à produire toujours plus de puissance de calcul et de
stockage, ce qui mène à des plateformes ”Petascale“ spécifi
ques et sophistiquées, et
bientôt à des machines ”Exascale“. Ces systèmes sont gérés de manière centralisée
à l’aide de solutions logicielles de gestion de jobs et de ressources dédiées. Un
problème crucial auquel répondent ces logiciels est le problème d’ordonnancement,
pour lequel le gestionnaire de ressources doit choisir quand, et sur quelles ressources
exécuter quelle tache calculatoire. Cette thèse fournit des solutions à ce problème.
Toutes les plateformes sont différentes. En effet, leur infrastructure, le comportement
de leurs utilisateurs et les objectifs de l’organisation hôte varient. Nous soutenons
donc que les politiques d’ordonnancement doivent s’adapter au comportement des
systèmes. Dans ce manuscrit, nous présentons plusieurs manières d’obtenir cette ca-
pacité d’adaptation. A travers une approche expérimentale, nous étudions plusieurs
compromis entre la complexité de l’approche, le gain potentiel, et les risques pris.
Origine : Fichiers produits par l'(les) auteur(s)