Design and Comparison of Resilient Scheduling Heuristics for Parallel Jobs - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2019

Design and Comparison of Resilient Scheduling Heuristics for Parallel Jobs

Résumé

This paper focuses on the resilient scheduling of parallel jobs on highperformance computing (HPC) platforms to minimize the overall completion time, or makespan. We revisit the problem by assuming that jobs are subject to transient or silent errors, and hence may need to be re-executed each time they fail to complete successfully. This work generalizes the classical framework where jobs are known offline and do not fail: in this classical framework, list scheduling that gives priority to longest jobs is known to be a 3-approximation when imposing to use shelves, and a 2-approximation without this restriction. We show that when jobs can fail, using shelves can be arbitrarily bad, but unrestricted list scheduling remains a 2-approximation. The paper focuses on the design of several heuristics, some list-based and some shelf-based, along with different priority rules and backfflling options. We assess and compare their performance through an extensive set of simulations, using both synthetic jobs and log traces from the Mira supercomputer.
Ce rapport s’intéresse à l’ordonnancement résilient de tâches parallèles sur des plates-formes de calcul haute performance (HPC), avec pour but de minimiser le temps total d’exécution. Nous considérons que les tâches sont confrontées à des erreurs silencieuses, et il faut donc les ré exécuter après chaque faute afin d’avoir une exécution correcte. Ces travaux généralisent le cadre classique où les tâches sont connues avant l’exécution et ne sont pas confrontées à des erreurs. Dans le cas sans erreurs, les ordonnancements de liste donnant la priorité aux plus longues tâches sont connus pour être une 3-approximation pour un ordonnancement par étagères, et une 2-approximation sans la restriction des étagères. Nous montrons qu’avec des erreurs, l’utilisation d’étagères peut aboutir à un ordonnancement arbitrairement loin de l’optimal, alors que l’ordonnancement de liste classique reste une 2-approximation. Nous concevons plusieurs heuristiques, à base de listes ou d’étagères, avec différentes règles de priorité et de réservation. Nous évaluons et comparons leur performance dans une campagne de simulations, en utilisant à la fois des tâches générées aléatoirement, et des tâches d’applications exécutées sur le supercalculateur Mira.
Fichier principal
Vignette du fichier
rr9296.pdf (1.18 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02317464 , version 1 (16-10-2019)
hal-02317464 , version 2 (21-02-2020)

Identifiants

  • HAL Id : hal-02317464 , version 2

Citer

Anne Benoit, Valentin Le Fèvre, Padma Raghavan, Yves Robert, Hongyang Sun. Design and Comparison of Resilient Scheduling Heuristics for Parallel Jobs. [Research Report] RR-9296, Inria - Research Centre Grenoble – Rhône-Alpes. 2019, pp.31. ⟨hal-02317464v2⟩
90 Consultations
257 Téléchargements

Partager

Gmail Facebook X LinkedIn More