Two-level checkpointing and verifications for linear task graphs

Résumé : Les erreurs fatales et silencieuses ne peuvent plus être ignorées sur des plates-formes à grande échelle. Des techniques de résilience efficaces doivent accommoder les deux types d'erreurs. Une approche traditionnelle de checkpoint et points de reprise peut être utilisée, en rajoutant des vérifications afin de détecter les erreurs silencieuses. Une erreur fatale entraîne la perte de tout le contenu mémoire, d'où l'obligation de faire une sauvegarde sur un support fiable (typiquement un disque). Par contre, il est possible de se satisfaire de checkpoints en mémoire pour les erreurs silencieuses, ce qui donne des surcoûts bien plus faibles. De plus, les détecteurs récents offrent des mécanismes de vérification partielle, qui sont moins coûteux que les vérifications garanties, mais qui ne détectent pas toutes les erreurs silencieuses. Nous montrons comment combiner toutes ces techniques pour des applications HPC dont le graphe de dépendances est une chaîne de tâches, et nous donnons un algorithme de programmation dynamique sophistiqué qui renvoie la solution optimale en temps polynomial. Des simulations démontrent que l'utilisation combinée de checkpoint à deux niveaux et de vérifications améliore la performance.
Type de document :
Rapport
[Research Report] RR-8794, ENS Lyon; Inria Grenoble Rhône-Alpes, Université de Grenoble. 2015
Liste complète des métadonnées

Littérature citée [25 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01216850
Contributeur : Equipe Roma <>
Soumis le : vendredi 11 mars 2016 - 15:22:18
Dernière modification le : mardi 13 décembre 2016 - 15:40:37

Fichier

RR-8794.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01216850, version 3

Collections

Citation

Anne Benoit, Aurélien Cavelan, Yves Robert, Hongyang Sun. Two-level checkpointing and verifications for linear task graphs. [Research Report] RR-8794, ENS Lyon; Inria Grenoble Rhône-Alpes, Université de Grenoble. 2015. 〈hal-01216850v3〉

Partager

Métriques

Consultations de la notice

166

Téléchargements de fichiers

46