A Generic and High Performance Approach for Fault Tolerance in Communication Library

François Trahay 1 Alexandre Denis 2, 3 Yutaka Ishikawa 1
3 RUNTIME - Efficient runtime systems for parallel architectures
Inria Bordeaux - Sud-Ouest, UB - Université de Bordeaux, CNRS - Centre National de la Recherche Scientifique : UMR5800
Abstract : With the increase of the number of nodes in clusters, the probability of failures increases. In this paper, we study the failures in the network stack for high performance networks. We present the design of several fault-tolerance mechanisms for communication libraries to detect failures and to ensure message integrity. We have implemented these mechanisms in the N EW M ADELEINE communication library with a quick detection of failures in a portable way, and with fallback to available links when an error occurs. Our mechanisms ensure the integrity of messages without lowering too much the networking performance. Our evaluation show that ensuring fault-tolerance does not impact significantly the performance of most applications.
Type de document :
Rapport
[Research Report] INRIA Bordeaux. 2010
Liste complète des métadonnées

Littérature citée [15 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00793176
Contributeur : Alexandre Denis <>
Soumis le : vendredi 22 février 2013 - 11:24:49
Dernière modification le : jeudi 11 janvier 2018 - 06:22:12
Document(s) archivé(s) le : dimanche 2 avril 2017 - 03:53:08

Fichier

main.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00793176, version 1

Collections

Citation

François Trahay, Alexandre Denis, Yutaka Ishikawa. A Generic and High Performance Approach for Fault Tolerance in Communication Library. [Research Report] INRIA Bordeaux. 2010. 〈hal-00793176〉

Partager

Métriques

Consultations de la notice

183

Téléchargements de fichiers

110