On the Combination of Silent Error Detection and Checkpointing

In this paper, we revisit traditional checkpointing and rollback recovery strategies, with a focus on silent data corruption errors. Contrarily to fail-stop failures, such latent errors cannot be detected immediately, and a mechanism to detect them must be provided. We consider two models: (i) errors are detected after some delays following a probability distribution (typically, an Exponential distribution); (ii) errors are detected through some verification mechanism. In both cases, we compute the optimal period in order to minimize the waste, i.e., the fraction of time where nodes do not perform useful computations. In practice, only a fixed number of checkpoints can be kept in memory, and the first model may lead to an irrecoverable failure. In this case, we compute the minimum period required for an acceptable risk. For the second model, there is no risk of irrecoverable failure, owing to the verification mechanism, but the corresponding overhead is included in the waste. Finally, both models are instantiated using realistic scenarios and application/architecture parameters.

Dans cet article nous considérons la technique traditionnelle de prise de points de sauvegarde (\emph{checkpoint}) et de récupération en présence de corruptions mémoires silencieuses. Contrairement aux pannes qui provoquent un arrêt de l'application, ces erreurs silencieuses ne sont pas détectées au moment où elles se produisent, mais plus tard, en au moyen d'un mécanisme spécifique de détection. Dans cet article nous considérons deux modèles, (i) dans le premier modèle les erreurs sont détectées après un délai qui lui-même suit une distribution de probabilité (typiquement une loi exponentielle); (ii) dans le deuxième modèle un appel à un mécanisme de vérification permet de détecter les erreurs au fur et à mesure de l'exécution. Dans les deux cas nous sommes capables de calculer la période optimale minimisant les pertes, c'est-à-dire la partie du temps où les n\oe uds ne font pas de calculs utiles. En pratique, seul un nombre borné de checkpoints peut être gardé en mémoire, et le premier modèle peut faire apparaître des fautes critiques qui provoquent la perte de tout le travail réalisé jusque là. Dans ce cas, nous calculons la période minimale qui satisfait une borne supérieure sur le risque. Pour le second modèle, il n'y a pas de risque de fautes critiques, grâce au mécanisme de vérification, mais le coût induit est reporté dans les pertes. Enfin, nous instancions chacun des modèles sous des scénarios et des paramètres d'architectures réalistes.

Mots clés

High-performance computing checkpointing silent data corruption verification error recovery

Domaines

Calcul parallèle, distribué et partagé [cs.DC]

Fichier principal

RR-8319.pdf (1.76 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Guillaume Pallez (Aupy) : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-00836871

Soumis le : vendredi 21 juin 2013-16:05:02

Dernière modification le : jeudi 15 février 2024-03:31:09

Archivage à long terme le : mercredi 5 avril 2017-01:43:42

Dates et versions

hal-00836871 , version 1 (21-06-2013)

Identifiants

HAL Id : hal-00836871 , version 1

Citer

Guillaume Aupy, Anne Benoit, Thomas Herault, Yves Robert, Frédéric Vivien, et al.. On the Combination of Silent Error Detection and Checkpointing. [Research Report] RR-8319, INRIA. 2013. ⟨hal-00836871⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

ENS-LYON UNIV-RENNES1 CNRS INRIA UNIV-LYON1 IRISA INRIA-RRRT INRIA2 LARA UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES UDL UR1-MATH-NUM

159 Consultations

142 Téléchargements