Unified Model for Assessing Checkpointing Protocols at Extreme-Scale

George Bosilca 1 Aurélien Bouteiller 1 Élisabeth Brunet 2 Franck Cappello 3, 4, 5 Jack Dongarra 1 Amina Guermouche 6, 7 Thomas Hérault 1 Yves Robert 6, 7 Frédéric Vivien 6, 7 Dounia Zaidouni 6, 7
3 GRAND-LARGE - Global parallel and distributed computing
LRI - Laboratoire de Recherche en Informatique, LIFL - Laboratoire d'Informatique Fondamentale de Lille, UP11 - Université Paris-Sud - Paris 11, Inria Saclay - Ile de France, CNRS - Centre National de la Recherche Scientifique : UMR8623
6 ROMA - Optimisation des ressources : modèles, algorithmes et ordonnancement
Inria Grenoble - Rhône-Alpes, LIP - Laboratoire de l'Informatique du Parallélisme
Résumé : Nous présentons ici un modèle unifié de plusieurs protocoles de sauvegarde de points de reprise (\emph{checkpoints}) et de redémarrage. Le modèle proposé est suffisamment générique pour contenir les deux extrêmes des techniques de checkpoint/restart, d'une approche coordonnée à toute une famille de stratégies non-coordonnées (avec enregistrement de messages). Nous identifions un ensemble de paramètres cruciaux, les instancions et comparons l'espérance de l'efficacité des protocoles de tolérance aux pannes, pour un couple donné application/plate-forme. Nous proposons une analyse détaillée de plusieurs scénarios, incluant certaines des plates-formes de calcul existantes les plus puissantes, ainsi que des anticipations sur les futures plates-formes exascale. Les résultats de cette analyse sont corroborés par un ensemble de simulations. Ensemble, ces résultats illustrent le comportement relatif des différentes stratégies à large échelle, fournissant des enseignements qu'il serait très difficile, voire impossible, d'obtenir par l'expérimentation directe.
Type de document :
Rapport
[Research Report] RR-7950, INRIA. 2012
Liste complète des métadonnées

Littérature citée [34 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00696154
Contributeur : Amina Guermouche <>
Soumis le : lundi 8 octobre 2012 - 16:47:19
Dernière modification le : vendredi 20 avril 2018 - 15:44:27
Document(s) archivé(s) le : vendredi 16 décembre 2016 - 21:58:01

Fichier

RR-7950.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00696154, version 2

Citation

George Bosilca, Aurélien Bouteiller, Élisabeth Brunet, Franck Cappello, Jack Dongarra, et al.. Unified Model for Assessing Checkpointing Protocols at Extreme-Scale. [Research Report] RR-7950, INRIA. 2012. 〈hal-00696154v2〉

Partager

Métriques

Consultations de la notice

531

Téléchargements de fichiers

304