On the Combination of Silent Error Detection and Checkpointing

Résumé : Dans cet article nous considérons la technique traditionnelle de prise de points de sauvegarde (\emph{checkpoint}) et de récupération en présence de corruptions mémoires silencieuses. Contrairement aux pannes qui provoquent un arrêt de l'application, ces erreurs silencieuses ne sont pas détectées au moment où elles se produisent, mais plus tard, en au moyen d'un mécanisme spécifique de détection. Dans cet article nous considérons deux modèles, (i) dans le premier modèle les erreurs sont détectées après un délai qui lui-même suit une distribution de probabilité (typiquement une loi exponentielle); (ii) dans le deuxième modèle un appel à un mécanisme de vérification permet de détecter les erreurs au fur et à mesure de l'exécution. Dans les deux cas nous sommes capables de calculer la période optimale minimisant les pertes, c'est-à-dire la partie du temps où les n\oe uds ne font pas de calculs utiles. En pratique, seul un nombre borné de checkpoints peut être gardé en mémoire, et le premier modèle peut faire apparaître des fautes critiques qui provoquent la perte de tout le travail réalisé jusque là. Dans ce cas, nous calculons la période minimale qui satisfait une borne supérieure sur le risque. Pour le second modèle, il n'y a pas de risque de fautes critiques, grâce au mécanisme de vérification, mais le coût induit est reporté dans les pertes. Enfin, nous instancions chacun des modèles sous des scénarios et des paramètres d'architectures réalistes.
Type de document :
Rapport
[Research Report] RR-8319, INRIA. 2013
Liste complète des métadonnées

Littérature citée [28 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00836871
Contributeur : Guillaume Aupy <>
Soumis le : vendredi 21 juin 2013 - 16:05:02
Dernière modification le : mardi 16 janvier 2018 - 15:35:57
Document(s) archivé(s) le : mercredi 5 avril 2017 - 01:43:42

Fichier

RR-8319.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00836871, version 1

Collections

Citation

Guillaume Aupy, Anne Benoit, Thomas Hérault, Yves Robert, Frédéric Vivien, et al.. On the Combination of Silent Error Detection and Checkpointing. [Research Report] RR-8319, INRIA. 2013. 〈hal-00836871〉

Partager

Métriques

Consultations de la notice

443

Téléchargements de fichiers

105