Assuming failure independence: are we right to be wrong? - Archive ouverte HAL Access content directly
Reports (Research Report) Year : 2017

Assuming failure independence: are we right to be wrong?

Au sujet de l'indépendance des fautes: avons-nous raison d'avoir tort ?

(1) , (2, 3) , (2)
1
2
3

Abstract

This report revisits the failure temporal independence hypothesis which is omnipresent in the analysis of resilience methods for HPC. We explain why a previous approach is incorrect, and we propose a new method to detect failure cascades, i.e., series of non-independent consecutive failures. We use this new method to assess whether public archive failure logs contain failure cascades. Then we design and compare several cascade-aware checkpointing algorithms to quantify the maximum gain that could be obtained, and we report extensive simulation results with archive and synthetic failure logs. Altogether, not only are there but a few logs that contain cascades, but we show that the gain that can be achieved from this knowledge is not significant. The conclusion is that we can wrongly, but safely, assume failure independence!
Ce rapport étudie l'indépendance temporelle des pannes qui surviennent dans les plates-formes de calcul scientifique à grande échelle. L'hypothèse d'indépendance est omniprésente dans les études. Un travail récent détecte des cascades, i.e., des séries de pannes consécutives et non-indépendantes, mais nous montrons que l'approche est incorrecte. Nous proposons une nouvelle approche, que nous mettons en oeuvre pour détecter des cascades dans les traces d'archive publiques. Certaines de ces traces contiennent bien des cascades. Puis nous concevons et comparons plusieurs algorithmes de checkpoint qui tiennent compte de la présence de cascades, dont plusieurs oralces, et nous évaluons leur performance par rapport à l'algorithme périodique classique, à la fois sur des traces d'archive et sur des traces synthétiques qui contiennent des cascades "artificielles". Le gain potentiel s'avère négligeable, et la conclusion est que nous pouvons supposer l'indépendance temporelle des pannes, à tort certes mais sans perte de performance avérée
Fichier principal
Vignette du fichier
RR-9078.pdf (1.39 Mo) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

hal-01556292 , version 1 (04-07-2017)

Identifiers

  • HAL Id : hal-01556292 , version 1

Cite

Guillaume Aupy, Yves Robert, Frédéric Vivien. Assuming failure independence: are we right to be wrong?. [Research Report] RR-9078, Inria. 2017. ⟨hal-01556292⟩
383 View
133 Download

Share

Gmail Facebook Twitter LinkedIn More