A Failure Detector for HPC Platforms

Résumé : Ce travail présente un détecteur de fautes pour plates-formes HPC. Ce détecteur maintient et diffuse la liste des ressources vivantes en temps logarithmique dans le pire cas, et ce même si un nombre non borné de fautes survient dans la plate-forme, à condition toutefois que celles-ci ne soient pas trop rapprochées dans le temps. De nombreuses simulations et expériences sur le supercalculateur Titan à ORNL montrent toute la performance et la scalabilité de notre algorithme.
Type de document :
Rapport
[Research Report] RR-9024, INRIA. 2017
Liste complète des métadonnées

Littérature citée [31 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01453086
Contributeur : Equipe Roma <>
Soumis le : jeudi 2 février 2017 - 15:28:37
Dernière modification le : vendredi 31 août 2018 - 09:25:54
Document(s) archivé(s) le : vendredi 5 mai 2017 - 13:32:33

Fichier

RR-9024.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01453086, version 1

Collections

Citation

George Bosilca, Aurélien Bouteiller, Amina Guermouche, Thomas Hérault, Yves Robert, et al.. A Failure Detector for HPC Platforms. [Research Report] RR-9024, INRIA. 2017. 〈hal-01453086〉

Partager

Métriques

Consultations de la notice

530

Téléchargements de fichiers

353