On the Use of Cluster-Based Partial Message Logging to Improve Fault Tolerance for MPI HPC Applications

Thomas Ropars 1 Amina Guermouche 2, 3 Bora Uçar 2, 4 Esteban Meneses 5 Laxmikant Kale 5 Franck Cappello 6, 7, 8
2 ROMA - Optimisation des ressources : modèles, algorithmes et ordonnancement
Inria Grenoble - Rhône-Alpes, LIP - Laboratoire de l'Informatique du Parallélisme
4 GRAAL - Algorithms and Scheduling for Distributed Heterogeneous Platforms
Inria Grenoble - Rhône-Alpes, LIP - Laboratoire de l'Informatique du Parallélisme
6 GRAND-LARGE - Global parallel and distributed computing
CNRS - Centre National de la Recherche Scientifique : UMR8623, Inria Saclay - Ile de France, UP11 - Université Paris-Sud - Paris 11, LIFL - Laboratoire d'Informatique Fondamentale de Lille, LRI - Laboratoire de Recherche en Informatique
Type de document :
Chapitre d'ouvrage
Jeannot, Emmanuel and Namyst, Raymond and Roman, Jean. Euro-Par 2011 Parallel Processing, 6852, Springer Berlin / Heidelberg, pp.567-578, 2011
Liste complète des métadonnées

https://hal.inria.fr/hal-00786558
Contributeur : Equipe Roma <>
Soumis le : vendredi 8 février 2013 - 20:45:55
Dernière modification le : vendredi 20 avril 2018 - 15:44:27

Identifiants

  • HAL Id : hal-00786558, version 1

Citation

Thomas Ropars, Amina Guermouche, Bora Uçar, Esteban Meneses, Laxmikant Kale, et al.. On the Use of Cluster-Based Partial Message Logging to Improve Fault Tolerance for MPI HPC Applications. Jeannot, Emmanuel and Namyst, Raymond and Roman, Jean. Euro-Par 2011 Parallel Processing, 6852, Springer Berlin / Heidelberg, pp.567-578, 2011. 〈hal-00786558〉

Partager

Métriques

Consultations de la notice

338