Learning to control large-scale parallel platforms

Valentin Reis

Thèse Année : 2018

Learning to control large-scale parallel platforms

Apprentissage pour le contrôle de plateformes parallèles à large échelle

(1)

Valentin Reis

Fonction : Auteur

Laboratoire d'Informatique de Grenoble

Résumé

Providing the computational infrastucture needed to solve complex problemsarising in modern society is a strategic challenge. Organisations usuallyadress this problem by building extreme-scale parallel and distributedplatforms. High Performance Computing (HPC) vendors race for more computingpower and storage capacity, leading to sophisticated specific Petascaleplatforms, soon to be Exascale platforms. These systems are centrally managedusing dedicated software solutions called Resource and Job Management Systems(RJMS). A crucial problem adressed by this software layer is the job schedulingproblem, where the RJMS chooses when and on which resources computational taskswill be executed. This manuscript provides ways to adress this schedulingproblem. No two platforms are identical. Indeed, the infrastructure, userbehavior and organization's goals all change from one system to the other. Wetherefore argue that scheduling policies should be adaptative to the system'sbehavior. In this manuscript, we provide multiple ways to achieve thisadaptativity. Through an experimental approach, we study various tradeoffsbetween the complexity of the approach, the potential gain, and the riskstaken.

Fournir les infrastructures de calcul nécessaires à la résolution des problèmescom-plexes de la société moderne constitue un défistratégique. Lesorganisations y répondent classiquement en mettant en place de largesinfrastructures de calcul parallèle et distribué. Les vendeurs de systèmes deCalcul Hautes Performances sont incités par la compétition à produire toujoursplus de puissance de calcul et de stockage, ce qui mène à des plateformes”Petascale“ spécifiques et sophistiquées, et bientôt à des machines”Exascale“. Ces systèmes sont gérés de manière centralisée à l’aide desolutions logicielles de gestion de jobs et de resources dédiées. Un problèmecrucial auquel répondent ces logiciels est le problème d’ordonnancement, pourlequel le gestionnaire de resources doit choisir quand, et sur quellesresources exécuter quelle tache calculatoire. Cette thèse fournit des solutionsà ce problème. Toutes les plateformes sont différentes. En effet, leurinfrastructure, le comportement de leurs utilisateurs et les objectifs del’organisation hôte varient. Nous soutenons donc que les politiquesd’ordonnancement doivent s’adapter au comportement des systèmes. Dans cemanuscrit, nous présentons plusieurs manières d’obtenir cette adaptativité. Atravers une approche expérimentale, nous étudions plusieurs compromis entre lacomplexité de l’approche, le gain potentiel, et les risques pris.

Mots clés

Bandits Scheduling Bandits

Allocation de resources Bandits Ordonnancement

Domaines

Calcul parallèle, distribué et partagé [cs.DC]

Fichier principal

REIS_2018_archivage.pdf (16.05 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://inria.hal.science/tel-01965150

Soumis le : vendredi 1 février 2019-11:12:30

Dernière modification le : jeudi 4 avril 2024-20:56:20

Archivage à long terme le : jeudi 2 mai 2019-14:49:48

Dates et versions

tel-01965150 , version 1 (24-12-2018)

tel-01965150 , version 2 (01-02-2019)

Identifiants

HAL Id : tel-01965150 , version 2

Citer

Valentin Reis. Learning to control large-scale parallel platforms. Distributed, Parallel, and Cluster Computing [cs.DC]. Université Grenoble Alpes, 2018. English. ⟨NNT : 2018GREAM045⟩. ⟨tel-01965150v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UGA CNRS LIG STAR LJK GRID5000 LJK_PS PERSYVAL-LAB LJK-PS-DAO SILECS LIG_SIDCH

237 Consultations

155 Téléchargements

Learning to control large-scale parallel platforms

Apprentissage pour le contrôle de plateformes parallèles à large échelle

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager