Multi-level checkpointing and silent error detection for linear workflows - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2016

Multi-level checkpointing and silent error detection for linear workflows

Checkpoint multi-niveaux et détection des erreurs silencieuses pour des graphes de tâches linéaires

Résumé

We focus on High Performance Computing (HPC) workflows whose dependency graph forms a linear chain, and we extend single-level checkpointing in two important directions. Our first contribution targets silent errors, and combines in-memory checkpoints with both partial and guaranteed verifications. Our second contribution deals with multi-level checkpointing for fail-stop errors. We present sophisticated dynamic programming algorithms that return the optimal solution for each problem in polynomial time. We also show how to combine all these techniques and solve the problem with both fail-stop and silent errors. Simulation results demonstrate that these extensions lead to significantly improved performance compared to the standard single-level checkpointing algorithm.
Les erreurs fatales et silencieuses ne peuvent plus être ignorées sur des plates- formes à grande échelle. Des techniques de résilience efficaces doivent accommoder les deux types d'erreurs. Une approche traditionnelle de checkpoint et points de reprise peut être utilisée, en rajoutant des vérifications afin de détecter les erreurs silencieuses. Une erreur fatale entraîne la perte de tout le contenu mémoire, d'où l'obligation de faire une sauvegarde sur un support fiable (typiquement un disque). Pour gérer plusieurs types d'erreurs fatales, nous utilisons une approche de checkpoint multi-niveau sur supports stables. Par contre, nous utilisons des checkpoints en mémoire pour les erreurs silencieuses, ce qui donne des surcoûts bien plus faibles. De plus, les détecteurs récents offrent des mécanismes de vérification partielle, qui sont moins coûteux que les vérifications garanties, mais qui ne détectent pas toutes les erreurs silencieuses. Nous montrons comment combiner toutes ces techniques pour des applications HPC dont le graphe de dépendances est une chaîne de tâches, et nous donnons plusieurs algorithmes de programmation dynamique qui renvoient la solution optimale en temps polynomial. Des simulations démontrent que l'utilisation combinée de checkpoint multi-niveaux et de vérifications améliore la performance.
Fichier principal
Vignette du fichier
RR-8952.pdf (1.09 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01363581 , version 1 (10-09-2016)
hal-01363581 , version 2 (02-04-2017)

Identifiants

  • HAL Id : hal-01363581 , version 2

Citer

Anne Benoit, Aurélien Cavelan, Yves Robert, Hongyang Sun. Multi-level checkpointing and silent error detection for linear workflows. [Research Report] RR-8952, INRIA. 2016. ⟨hal-01363581v2⟩
262 Consultations
193 Téléchargements

Partager

Gmail Facebook X LinkedIn More