Multi-level checkpointing and silent error detection for linear workflows

Résumé : Les erreurs fatales et silencieuses ne peuvent plus être ignorées sur des plates- formes à grande échelle. Des techniques de résilience efficaces doivent accommoder les deux types d'erreurs. Une approche traditionnelle de checkpoint et points de reprise peut être utilisée, en rajoutant des vérifications afin de détecter les erreurs silencieuses. Une erreur fatale entraîne la perte de tout le contenu mémoire, d'où l'obligation de faire une sauvegarde sur un support fiable (typiquement un disque). Pour gérer plusieurs types d'erreurs fatales, nous utilisons une approche de checkpoint multi-niveau sur supports stables. Par contre, nous utilisons des checkpoints en mémoire pour les erreurs silencieuses, ce qui donne des surcoûts bien plus faibles. De plus, les détecteurs récents offrent des mécanismes de vérification partielle, qui sont moins coûteux que les vérifications garanties, mais qui ne détectent pas toutes les erreurs silencieuses. Nous montrons comment combiner toutes ces techniques pour des applications HPC dont le graphe de dépendances est une chaîne de tâches, et nous donnons plusieurs algorithmes de programmation dynamique qui renvoient la solution optimale en temps polynomial. Des simulations démontrent que l'utilisation combinée de checkpoint multi-niveaux et de vérifications améliore la performance.
Type de document :
Rapport
[Research Report] RR-8952, INRIA. 2016
Liste complète des métadonnées

Littérature citée [50 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01363581
Contributeur : Equipe Roma <>
Soumis le : dimanche 2 avril 2017 - 18:30:08
Dernière modification le : vendredi 20 avril 2018 - 15:44:27
Document(s) archivé(s) le : lundi 3 juillet 2017 - 13:27:05

Fichier

RR-8952.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01363581, version 2

Collections

Citation

Anne Benoit, Aurélien Cavelan, Yves Robert, Hongyang Sun. Multi-level checkpointing and silent error detection for linear workflows. [Research Report] RR-8952, INRIA. 2016. 〈hal-01363581v2〉

Partager

Métriques

Consultations de la notice

183

Téléchargements de fichiers

43