Checkpointing strategies for parallel jobs

This work provides an analysis of checkpointing strategies for minimizing expected job execution times in an environment that is subject to processor failures. In the case of both sequential and parallel jobs, we give the optimal solution for exponentially distributed failure inter-arrival times, which, to the best of our knowledge, is the rst rigorous proof that periodic check- pointing is optimal. For non-exponentially distributed failures, we develop a dynamic programming algorithm to maximize the amount of work completed before the next failure, which provides a good heuristic for minimizing the ex- pected execution time. Our work considers various models of job parallelism and of parallel checkpointing overhead. We rst perform extensive simulation experiments assuming that failures follow Exponential or Weibull distributions, the latter being more representative of real-world systems. The obtained results not only corroborate our theoretical ndings, but also show that our dynamic programming algorithm signi cantly outperforms previously proposed solutions in the case of Weibull failures. We then discuss results from simulation experi- ments that use failure logs from production clusters. These results con rm that our dynamic programming algorithm signi cantly outperforms existing solutions for real-world clusters.

Nous présentons dans ce travail une analyse rigoureuse des stratégies de checkpoint, pour les applications séquentielles et parallèles. L'objectif est de minimiser l'espérance du temps de complétion d'une application s'exécutant sur des processeurs pouvant être de victimes de pannes. Dans le cas séquentiel, une résolution exacte est proposée lorsque les intervalles inter-pannes sont distribués selon une loi exponentielle. Il semble que ce résultat soit la première preuve rigoureuse de l'optimalité des stratégies périodiques de checkpoint dans ce cadre. Dans le cas général (c'est-à-dire pour des lois quelconques), nous fournissons une programmation dynamique permettant des calculs optimaux, à un quantum de temps fixé près. Dans le cas des applications parallèles, nous étendons le résultat exact (pour le cas exponentiel), et ce pour différents modèles d'applications et de coûts de checkpoints. Pour le cas général, nous proposons une deuxième programmation dynamique (plus rapide) dont l'objectif est de maximiser l'espérance du travail fait avant la prochaine panne, qui s'avère fournir de bonnes approximations pour le problème initial. Nous validons nos résultats grâce à de nombreuses simulations, réalisées pour des lois inter-pannes de distribution exponentielles et de Weibull (cette dernière distribution étant selon de nombreuses études plus appropriée pour modéliser des durées inter-pannes). Ces simulations confirment nos résultats théoriques. De plus, ils apparaît que notre algorithme de programmation dynamique fournit de bien meilleures performances que les solutions existantes pour le cas des lois de Weibull.

Mots clés

Fault-tolerance checkpointing sequential job parallel job Weibull

Domaines

Calcul parallèle, distribué et partagé [cs.DC]

Fichier principal

RR-7520.pdf (1.23 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Marin Bougeret : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00560582

Soumis le : jeudi 21 avril 2011-17:01:14

Dernière modification le : jeudi 11 mai 2023-11:56:10

Dates et versions

inria-00560582 , version 1 (28-01-2011)

inria-00560582 , version 2 (21-04-2011)

inria-00560582 , version 3 (22-04-2011)

Identifiants

HAL Id : inria-00560582 , version 2

Citer

Marin Bougeret, Henri Casanova, Mikael Rabie, Yves Robert, Frédéric Vivien. Checkpointing strategies for parallel jobs. [Research Report] RR-7520, 2011, pp.45. ⟨inria-00560582v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

207 Consultations

364 Téléchargements