Checkpointing strategies for parallel jobs - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2011

Checkpointing strategies for parallel jobs

Résumé

This work provides a rigorous analysis of checkpointing strategies for sequential and parallel jobs. The objective is to minimize the expected job execution time in an environment that is subject to processor failures. For sequential jobs, we give the optimal solution if failure inter-arrival times are exponentially distributed. To the best of our knowledge, our result in the Exponential case is the first published rigorous proof that periodic checkpointing is optimal. In the general case (i.e., non-exponentially distributed), we give a dynamic programming algorithm that computes an accurate solution. For parallel jobs, we also provide the optimal solution in the Exponential case, which is given for various models of job parallelism and of checkpointing overhead. In the general case, we develop a dynamic programming algorithm to maximize the amount of work completed before the next failure, which provides a good heuristic solution for minimizing the expected execution time. To assess our work, we perform an extensive set of simulation experiments considering both Exponential and Weibull laws, as several studies have shown that Weibull distributions are the most appropriate to model the distribution of failures. These experiments corroborate all our theoretical results. Furthermore, they show that our dynamic programming algorithm far outperforms existing solutions when failure inter-arrival times follow a Weibull distribution.
Nous présentons dans ce travail une analyse rigoureuse des stratégies de checkpoint, pour les applications séquentielles et parallèles. L'objectif est de minimiser l'espérance du temps de complétion d'une application s'exécutant sur des processeurs pouvant être de victimes de pannes. Dans le cas séquentiel, une résolution exacte est proposée lorsque les intervalles inter-pannes sont distribués selon une loi exponentielle. Il semble que ce résultat soit la première preuve rigoureuse de l'optimalité des stratégies périodiques de checkpoint dans ce cadre. Dans le cas général (c'est-à-dire pour des lois quelconques), nous fournissons une programmation dynamique permettant des calculs optimaux, à un quantum de temps fixé près. Dans le cas des applications parallèles, nous étendons le résultat exact (pour le cas exponentiel), et ce pour différents modèles d'applications et de coûts de checkpoints. Pour le cas général, nous proposons une deuxième programmation dynamique (plus rapide) dont l'objectif est de maximiser l'espérance du travail fait avant la prochaine panne, qui s'avère fournir de bonnes approximations pour le problème initial. Nous validons nos résultats grâce à de nombreuses simulations, réalisées pour des lois inter-pannes de distribution exponentielles et de Weibull (cette dernière distribution étant selon de nombreuses études plus appropriée pour modéliser des durées inter-pannes). Ces simulations confirment nos résultats théoriques. De plus, ils apparaît que notre algorithme de programmation dynamique fournit de bien meilleures performances que les solutions existantes pour le cas des lois de Weibull.
Fichier principal
Vignette du fichier
RR-7520.pdf (634.35 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

inria-00560582 , version 1 (28-01-2011)
inria-00560582 , version 2 (21-04-2011)
inria-00560582 , version 3 (22-04-2011)

Identifiants

  • HAL Id : inria-00560582 , version 1

Citer

Marin Bougeret, Henri Casanova, Mikael Rabie, Yves Robert, Frédéric Vivien. Checkpointing strategies for parallel jobs. [Research Report] RR-7520, 2011, pp.44. ⟨inria-00560582v1⟩

Collections

INRIA-RRRT
207 Consultations
364 Téléchargements

Partager

Gmail Facebook X LinkedIn More