Learning to control large-scale parallel platforms

Valentin Reis

Résumé

Providing the computational infrastructure needed to solve complex problems arising in modern society is a strategic challenge. Organisations usually address this problem by building extreme-scale parallel and distributed platforms. High Performance Computing (HPC) vendors race for more computing power and storage capacity, leading to sophisticated specifi c Petascale platforms, soon to be Exascale platforms. These systems are centrally managed using dedicated software solutions called Resource and Job Management Systems (RJMS). A crucial problem addressed by this software layer is the job scheduling problem, where the RJMS chooses when and on which resources computational tasks will be executed. This manuscript provides ways to adress this scheduling problem. No two platforms are identical. Indeed, the infrastructure, user behavior and organization’s goals all change from one system to the other. We therefore argue that scheduling policies should be adaptive to the system’s behavior. In this manuscript, we provide multiple ways to achieve this adaptivity. Through an experimental approach, we study various trade-offs between the complexity of the approach, the potential gain, and the risks taken.

Fournir les infrastructures de calcul nécessaires à la résolution des problèmes com- plexes de la société moderne constitue un défistratégique. Les organisations y répondent classiquement en mettant en place de larges infrastructures de calcul parallèle et distribué. Les vendeurs de syst‘emes de Calcul Hautes Performances sont incités par la compétition à produire toujours plus de puissance de calcul et de stockage, ce qui mène à des plateformes ”Petascale“ spécifi ques et sophistiquées, et bientôt à des machines ”Exascale“. Ces systèmes sont gérés de manière centralisée à l’aide de solutions logicielles de gestion de jobs et de ressources dédiées. Un problème crucial auquel répondent ces logiciels est le problème d’ordonnancement, pour lequel le gestionnaire de ressources doit choisir quand, et sur quelles ressources exécuter quelle tache calculatoire. Cette thèse fournit des solutions à ce problème. Toutes les plateformes sont différentes. En effet, leur infrastructure, le comportement de leurs utilisateurs et les objectifs de l’organisation hôte varient. Nous soutenons donc que les politiques d’ordonnancement doivent s’adapter au comportement des systèmes. Dans ce manuscrit, nous présentons plusieurs manières d’obtenir cette ca- pacité d’adaptation. A travers une approche expérimentale, nous étudions plusieurs compromis entre la complexité de l’approche, le gain potentiel, et les risques pris.

Learning to control large-scale parallel platforms

Apprentissage pour le contrôle de plateformes parallèles à large échelle

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager