Assuming failure independence: are we right to be wrong?

Guillaume Aupy 1 Yves Robert 2, 3 Frédéric Vivien 2
1 TADAAM - Topology-Aware System-Scale Data Management for High-Performance Computing
LaBRI - Laboratoire Bordelais de Recherche en Informatique, Inria Bordeaux - Sud-Ouest
2 ROMA - Optimisation des ressources : modèles, algorithmes et ordonnancement
Inria Grenoble - Rhône-Alpes, LIP - Laboratoire de l'Informatique du Parallélisme
Résumé : Ce rapport étudie l'indépendance temporelle des pannes qui surviennent dans les plates-formes de calcul scientifique à grande échelle. L'hypothèse d'indépendance est omniprésente dans les études. Un travail récent détecte des cascades, i.e., des séries de pannes consécutives et non-indépendantes, mais nous montrons que l'approche est incorrecte. Nous proposons une nouvelle approche, que nous mettons en oeuvre pour détecter des cascades dans les traces d'archive publiques. Certaines de ces traces contiennent bien des cascades. Puis nous concevons et comparons plusieurs algorithmes de checkpoint qui tiennent compte de la présence de cascades, dont plusieurs oralces, et nous évaluons leur performance par rapport à l'algorithme périodique classique, à la fois sur des traces d'archive et sur des traces synthétiques qui contiennent des cascades "artificielles". Le gain potentiel s'avère négligeable, et la conclusion est que nous pouvons supposer l'indépendance temporelle des pannes, à tort certes mais sans perte de performance avérée
Type de document :
Rapport
[Research Report] RR-9078, Inria. 2017
Liste complète des métadonnées

Littérature citée [261 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01556292
Contributeur : Equipe Roma <>
Soumis le : mardi 4 juillet 2017 - 21:45:54
Dernière modification le : mardi 16 janvier 2018 - 15:30:13
Document(s) archivé(s) le : vendredi 15 décembre 2017 - 03:19:28

Fichier

RR-9078.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01556292, version 1

Collections

Citation

Guillaume Aupy, Yves Robert, Frédéric Vivien. Assuming failure independence: are we right to be wrong?. [Research Report] RR-9078, Inria. 2017. 〈hal-01556292〉

Partager

Métriques

Consultations de la notice

182

Téléchargements de fichiers

39