Learning to control large-scale parallel platforms - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Thèse Année : 2018

Learning to control large-scale parallel platforms

Apprentissage pour le contrôle de plateformes parallèles à large échelle

Résumé

Providing the computational infrastructure needed to solve complex problems arising in modern society is a strategic challenge. Organisations usually address this problem by building extreme-scale parallel and distributed platforms. High Performance Computing (HPC) vendors race for more computing power and storage capacity, leading to sophisticated specifi c Petascale platforms, soon to be Exascale platforms. These systems are centrally managed using dedicated software solutions called Resource and Job Management Systems (RJMS). A crucial problem addressed by this software layer is the job scheduling problem, where the RJMS chooses when and on which resources computational tasks will be executed. This manuscript provides ways to adress this scheduling problem. No two platforms are identical. Indeed, the infrastructure, user behavior and organization’s goals all change from one system to the other. We therefore argue that scheduling policies should be adaptive to the system’s behavior. In this manuscript, we provide multiple ways to achieve this adaptivity. Through an experimental approach, we study various trade-offs between the complexity of the approach, the potential gain, and the risks taken.
Fournir les infrastructures de calcul nécessaires à la résolution des problèmes com- plexes de la société moderne constitue un défistratégique. Les organisations y répondent classiquement en mettant en place de larges infrastructures de calcul parallèle et distribué. Les vendeurs de syst‘emes de Calcul Hautes Performances sont incités par la compétition à produire toujours plus de puissance de calcul et de stockage, ce qui mène à des plateformes ”Petascale“ spécifi ques et sophistiquées, et bientôt à des machines ”Exascale“. Ces systèmes sont gérés de manière centralisée à l’aide de solutions logicielles de gestion de jobs et de ressources dédiées. Un problème crucial auquel répondent ces logiciels est le problème d’ordonnancement, pour lequel le gestionnaire de ressources doit choisir quand, et sur quelles ressources exécuter quelle tache calculatoire. Cette thèse fournit des solutions à ce problème. Toutes les plateformes sont différentes. En effet, leur infrastructure, le comportement de leurs utilisateurs et les objectifs de l’organisation hôte varient. Nous soutenons donc que les politiques d’ordonnancement doivent s’adapter au comportement des systèmes. Dans ce manuscrit, nous présentons plusieurs manières d’obtenir cette ca- pacité d’adaptation. A travers une approche expérimentale, nous étudions plusieurs compromis entre la complexité de l’approche, le gain potentiel, et les risques pris.
Fichier principal
Vignette du fichier
dissertation.pdf (12.25 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-01965150 , version 1 (24-12-2018)
tel-01965150 , version 2 (01-02-2019)

Identifiants

  • HAL Id : tel-01965150 , version 1

Citer

Valentin Reis. Learning to control large-scale parallel platforms. Machine Learning [cs.LG]. Université Grenoble Alpes (France), 2018. English. ⟨NNT : ⟩. ⟨tel-01965150v1⟩
237 Consultations
155 Téléchargements

Partager

Gmail Facebook X LinkedIn More