Checkpointing strategies for parallel jobs

Marin Bougeret; Henri Casanova; Mikael Rabie; Yves Robert; Frédéric Vivien

Reports (Research Report) Year : 2011

Checkpointing strategies for parallel jobs

(1) , (2) , (3) , (1, 4) , (1)

1
2
3
4

Marin Bougeret

Function : Author
PersonId : 10167
IdHAL : marin-bougeret
ORCID : 0000-0002-9910-4656
IdRef : 197511686

Algorithms and Scheduling for Distributed Heterogeneous Platforms

Henri Casanova

Function : Author
PersonId : 841811

Department of Information and Computer Sciences

Mikael Rabie

Function : Author

École normale supérieure de Lyon

Yves Robert

Function : Author
PersonId : 739318
IdHAL : yves-robert
ORCID : 0000-0003-2361-055X
IdRef : 029813611

Algorithms and Scheduling for Distributed Heterogeneous Platforms

Laboratoire de l'Informatique du Parallélisme

Frédéric Vivien

Function : Author
PersonId : 1372
IdHAL : fredericvivien
ORCID : 0000-0002-0663-6152
IdRef : 189808535

Algorithms and Scheduling for Distributed Heterogeneous Platforms

Abstract

This work provides an analysis of checkpointing strategies for minimizing expected job execution times in an environment that is subject to processor failures. In the case of both sequential and parallel jobs, we give the optimal solution for exponentially distributed failure inter-arrival times, which, to the best of our knowledge, is the rst rigorous proof that periodic check- pointing is optimal. For non-exponentially distributed failures, we develop a dynamic programming algorithm to maximize the amount of work completed before the next failure, which provides a good heuristic for minimizing the ex- pected execution time. Our work considers various models of job parallelism and of parallel checkpointing overhead. We rst perform extensive simulation experiments assuming that failures follow Exponential or Weibull distributions, the latter being more representative of real-world systems. The obtained results not only corroborate our theoretical ndings, but also show that our dynamic programming algorithm signi cantly outperforms previously proposed solutions in the case of Weibull failures. We then discuss results from simulation experi- ments that use failure logs from production clusters. These results con rm that our dynamic programming algorithm signi cantly outperforms existing solutions for real-world clusters.

Nous présentons dans ce travail une analyse rigoureuse des stratégies de checkpoint, pour les applications séquentielles et parallèles. L'objectif est de minimiser l'espérance du temps de complétion d'une application s'exécutant sur des processeurs pouvant être de victimes de pannes. Dans le cas séquentiel, une résolution exacte est proposée lorsque les intervalles inter-pannes sont distribués selon une loi exponentielle. Il semble que ce résultat soit la première preuve rigoureuse de l'optimalité des stratégies périodiques de checkpoint dans ce cadre. Dans le cas général (c'est-à-dire pour des lois quelconques), nous fournissons une programmation dynamique permettant des calculs optimaux, à un quantum de temps fixé près. Dans le cas des applications parallèles, nous étendons le résultat exact (pour le cas exponentiel), et ce pour différents modèles d'applications et de coûts de checkpoints. Pour le cas général, nous proposons une deuxième programmation dynamique (plus rapide) dont l'objectif est de maximiser l'espérance du travail fait avant la prochaine panne, qui s'avère fournir de bonnes approximations pour le problème initial. Nous validons nos résultats grâce à de nombreuses simulations, réalisées pour des lois inter-pannes de distribution exponentielles et de Weibull (cette dernière distribution étant selon de nombreuses études plus appropriée pour modéliser des durées inter-pannes). Ces simulations confirment nos résultats théoriques. De plus, ils apparaît que notre algorithme de programmation dynamique fournit de bien meilleures performances que les solutions existantes pour le cas des lois de Weibull.

Keywords

Fault-tolerance checkpointing sequential job parallel job Weibull

Domains

Distributed, Parallel, and Cluster Computing [cs.DC]

Fichier principal

RR-7520.pdf (1.59 Mo)

Origin : Files produced by the author(s)

Marin Bougeret : Connect in order to contact the contributor

https://inria.hal.science/inria-00560582

Submitted on : Friday, April 22, 2011-3:16:41 PM

Last modification on : Thursday, February 15, 2024-3:32:27 AM

Long-term archiving on: Sunday, December 4, 2016-2:25:32 AM

Dates and versions

inria-00560582 , version 1 (28-01-2011)

inria-00560582 , version 2 (21-04-2011)

inria-00560582 , version 3 (22-04-2011)

Identifiers

HAL Id : inria-00560582 , version 3

Cite

Marin Bougeret, Henri Casanova, Mikael Rabie, Yves Robert, Frédéric Vivien. Checkpointing strategies for parallel jobs. [Research Report] RR-7520, INRIA. 2011, pp.45. ⟨inria-00560582v3⟩

Export

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

ENS-LYON UNIV-RENNES1 CNRS INRIA UNIV-LYON1 IRISA INRIA-RRRT INRIA2 LARA UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES UDL ANR UR1-MATH-NUM

207 View

364 Download

Checkpointing strategies for parallel jobs

Abstract

Keywords

Domains

Dates and versions

Identifiers

Cite

Export

Collections

Share