High performance checksum computation for fault-tolerant MPI over InfiniBand

Alexandre Denis 1, 2, * François Trahay 3 Yutaka Ishikawa 4
* Auteur correspondant
1 RUNTIME - Efficient runtime systems for parallel architectures
Inria Bordeaux - Sud-Ouest, UB - Université de Bordeaux, CNRS - Centre National de la Recherche Scientifique : UMR5800
Abstract : With the increase of the number of nodes in clusters, the probability of failures and unusual events increases. In this paper, we present checksum mechanisms to detect data corruption. We study the impact of checksums on network communication performance and we propose a mechanism to amortize their cost on InfiniBand. We have implemented our mechanisms in the NEWMADELEINE communication library. Our evaluation shows that our mechanisms to ensure message integrity do not impact noticeably the application performance, which is an improvement over the state of the art MPI implementations.
Keywords : NewMadeleine MadMPI MPI
Type de document :
Communication dans un congrès
Jesper Larsson Träff, Siegfried Benkner and Jack Dongarra. the 19th European MPI Users' Group Meeting (EuroMPI 2012), Sep 2012, Vienna, Austria. Springer, 7490, 2012
Liste complète des métadonnées

Littérature citée [16 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00716478
Contributeur : Alexandre Denis <>
Soumis le : mardi 10 juillet 2012 - 16:09:23
Dernière modification le : jeudi 9 février 2017 - 15:21:48
Document(s) archivé(s) le : jeudi 15 décembre 2016 - 21:42:12

Fichier

final.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00716478, version 1

Citation

Alexandre Denis, François Trahay, Yutaka Ishikawa. High performance checksum computation for fault-tolerant MPI over InfiniBand. Jesper Larsson Träff, Siegfried Benkner and Jack Dongarra. the 19th European MPI Users' Group Meeting (EuroMPI 2012), Sep 2012, Vienna, Austria. Springer, 7490, 2012. 〈hal-00716478〉

Partager

Métriques

Consultations de
la notice

336

Téléchargements du document

310