Optimal Checkpointing Period: Time vs. Energy - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2013

Optimal Checkpointing Period: Time vs. Energy

Résumé

This short paper deals with parallel scientific applications using non-blocking and periodic coordinated checkpointing to enforce resilience. We provide a model and detailed formulas for total execution time and consumed energy. We characterize the optimal period for both objectives, and we assess the range of time/energy trade-offs to be made by instantiating the model with a set of realistic scenarios for Exascale systems. We give a particular emphasis to I/O transfers, because the relative cost of communication is expected to dramatically increase, both in terms of latency and consumed energy, for future Exascale platforms.
Dans ce court papier, nous considérons des applications scientifiques parallèles, utilisant des protocoles de sauvegarde de points de reprise (\emph{checkpoints}) coordonnés et périodiques afin de se préserver des fautes. Nous fournissons un modèle et des formules détaillées pour le temps total d'exécution et la consommation d'énergie de ces applications. Nous caractérisons pour les deux objectifs, les périodes optimales, et par de nombreuses simulations réalistes pour des systèmes exascales, montrons le compromis temps/énergie induit par ces périodes. Finalement, nous insistons particulièrement dans cette étude sur le coût des tranferts I/O : il est attendu que le coût relatif des communications augmente drastiquement, à la fois en termes de latence, et en termes énergétiques, pour les futures plateformes exascales.
Fichier principal
Vignette du fichier
RR-8387.pdf (664.52 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00878938 , version 1 (31-10-2013)

Identifiants

  • HAL Id : hal-00878938 , version 1

Citer

Guillaume Aupy, Anne Benoit, Thomas Herault, Yves Robert, Jack Dongarra. Optimal Checkpointing Period: Time vs. Energy. [Research Report] RR-8387, INRIA. 2013, pp.19. ⟨hal-00878938⟩
160 Consultations
102 Téléchargements

Partager

Gmail Facebook X LinkedIn More