Resilient Scheduling of Moldable Parallel Jobs to Cope with Silent Errors - Archive ouverte HAL Access content directly
Reports (Research Report) Year : 2021

Resilient Scheduling of Moldable Parallel Jobs to Cope with Silent Errors

Ordonnancement avec tolérance aux pannes pour des tâches parallèles à nombre de processeurs programmable

(1) , (1) , (1, 2) , (2) , (1, 3) , (2)
1
2
3

Abstract

We study the resilient scheduling of moldable parallel jobs on high-performance computing (HPC) platforms. Moldable jobs allow for choosing a processor allocation before execution, and their execution time obeys various speedup models. The objective is to minimize the overall completion time of the jobs, or the makespan, when jobs can fail due to silent errors and hence may need to be re-executed after each failure until successful completion. Our work generalizes the classical scheduling framework for failure-free jobs. To cope with silent errors, we introduce two resilient scheduling algorithms, LPA-List and Batch-List, both of which use the List strategy to schedule the jobs. Without knowing a priori how many times each job will fail, LPA-List relies on a local strategy to allocate processors to the jobs, while Batch-List schedules the jobs in batches and allows only a restricted number of failures per job in each batch. We prove new approximation ratios for the two algorithms under several prominent speedup models (e.g., roofline, communication, Amdahl, power, monotonic, and a mixed model). An extensive set of simulations is conducted to evaluate different variants of the two algorithms, and the results show that they consistently outperform some baseline heuristics. Overall, our best algorithm is within a factor of 1.6 of a lower bound on average over the entire set of experiments, and within a factor of 4.2 in the worst case.
Ce rapport étudie l’ordonnancement résilient de tâches sur des plateformes de calcul à haute performance. Dans le problème étudié, il est possible de choisir le nombre constant de processeurs effectuant chaque tâche, en déterminant le temps d’exécution de ces dernières selon différent modèles de rendement. Nous décrivons des algorithmes dont l’objectif est deminimiser le temps total d’exécution, sachant que les tâches sont susceptibles d’échouer et de devoir être ré-effectuées à chaque erreur. Ce problème est donc une généralisation du cadre classique où toutes les tâches sont connues à priori et n’échouent pas. Nous décrivons un algorithme d’ordonnancement par listes de priorité, et prouvons de nouvelles bornes d’approximation pour trois modèles de rendement classiques (roofline, communication, Amdahl, power, monotonic, et un modèle qui mélange ceux-ci). Nous décrivons également un algorithme d’ordonnancement par lots, au sein desquels les tâches pourront échouer un nombre limité de fois, et prouvons alors de nouvelles bornes d’approximation pour des rendements quelconques. Enfin, nous effectuons des expériences sur un ensemble complet d’exemples pour comparer les niveaux de performance de différentes variantes de nos algorithmes, significativement meilleurs que les algorithmes simples usuels. Notre meilleure heuristique est en moyenne à un facteur $1.6$ d’une borne inférieure de la solution optimale, et à un facteur $4.2$ dans le pire cas.
Fichier principal
Vignette du fichier
rr9340-v2.pdf (1.52 Mo) Télécharger le fichier
Origin : Files produced by the author(s)

Dates and versions

hal-02614215 , version 1 (20-05-2020)
hal-02614215 , version 2 (25-01-2021)

Identifiers

  • HAL Id : hal-02614215 , version 2

Cite

Anne Benoit, Valentin Le Fèvre, Lucas Perotin, Padma Raghavan, Yves Robert, et al.. Resilient Scheduling of Moldable Parallel Jobs to Cope with Silent Errors. [Research Report] RR-9340, Inria - Research Centre Grenoble – Rhône-Alpes. 2021. ⟨hal-02614215v2⟩
174 View
167 Download

Share

Gmail Facebook Twitter LinkedIn More