On the Combination of Silent Error Detection and Checkpointing - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2013

On the Combination of Silent Error Detection and Checkpointing

Résumé

In this paper, we revisit traditional checkpointing and rollback recovery strategies, with a focus on silent data corruption errors. Contrarily to fail-stop failures, such latent errors cannot be detected immediately, and a mechanism to detect them must be provided. We consider two models: (i) errors are detected after some delays following a probability distribution (typically, an Exponential distribution); (ii) errors are detected through some verification mechanism. In both cases, we compute the optimal period in order to minimize the waste, i.e., the fraction of time where nodes do not perform useful computations. In practice, only a fixed number of checkpoints can be kept in memory, and the first model may lead to an irrecoverable failure. In this case, we compute the minimum period required for an acceptable risk. For the second model, there is no risk of irrecoverable failure, owing to the verification mechanism, but the corresponding overhead is included in the waste. Finally, both models are instantiated using realistic scenarios and application/architecture parameters.
Dans cet article nous considérons la technique traditionnelle de prise de points de sauvegarde (\emph{checkpoint}) et de récupération en présence de corruptions mémoires silencieuses. Contrairement aux pannes qui provoquent un arrêt de l'application, ces erreurs silencieuses ne sont pas détectées au moment où elles se produisent, mais plus tard, en au moyen d'un mécanisme spécifique de détection. Dans cet article nous considérons deux modèles, (i) dans le premier modèle les erreurs sont détectées après un délai qui lui-même suit une distribution de probabilité (typiquement une loi exponentielle); (ii) dans le deuxième modèle un appel à un mécanisme de vérification permet de détecter les erreurs au fur et à mesure de l'exécution. Dans les deux cas nous sommes capables de calculer la période optimale minimisant les pertes, c'est-à-dire la partie du temps où les n\oe uds ne font pas de calculs utiles. En pratique, seul un nombre borné de checkpoints peut être gardé en mémoire, et le premier modèle peut faire apparaître des fautes critiques qui provoquent la perte de tout le travail réalisé jusque là. Dans ce cas, nous calculons la période minimale qui satisfait une borne supérieure sur le risque. Pour le second modèle, il n'y a pas de risque de fautes critiques, grâce au mécanisme de vérification, mais le coût induit est reporté dans les pertes. Enfin, nous instancions chacun des modèles sous des scénarios et des paramètres d'architectures réalistes.
Fichier principal
Vignette du fichier
RR-8319.pdf (1.76 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00836871 , version 1 (21-06-2013)

Identifiants

  • HAL Id : hal-00836871 , version 1

Citer

Guillaume Aupy, Anne Benoit, Thomas Herault, Yves Robert, Frédéric Vivien, et al.. On the Combination of Silent Error Detection and Checkpointing. [Research Report] RR-8319, INRIA. 2013. ⟨hal-00836871⟩
157 Consultations
142 Téléchargements

Partager

Gmail Facebook X LinkedIn More