Checkpointing algorithms and fault prediction

Abstract : This paper deals with the impact of fault prediction techniques on checkpointing strategies. We extend the classical first-order analysis of Young and Daly in the presence of a fault prediction system, characterized by its recall and its precision. In this framework, we provide optimal algorithms to decide whether and when to take predictions into account, and we derive the optimal value of the checkpointing period. These results allow us to analytically assess the key parameters that impact the performance of fault predictors at very large scale.
Type de document :
Article dans une revue
Journal of Parallel and Distributed Computing, Elsevier, 2013, 74 (2), pp.2048-2064. 〈10.1016/j.jpdc.2013.10.010〉
Liste complète des métadonnées

Littérature citée [26 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00908446
Contributeur : Equipe Roma <>
Soumis le : samedi 23 novembre 2013 - 02:19:20
Dernière modification le : vendredi 20 avril 2018 - 15:44:26
Document(s) archivé(s) le : lundi 24 février 2014 - 02:30:18

Fichier

main.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

Collections

Citation

Guillaume Aupy, Yves Robert, Frédéric Vivien, Dounia Zaidouni. Checkpointing algorithms and fault prediction. Journal of Parallel and Distributed Computing, Elsevier, 2013, 74 (2), pp.2048-2064. 〈10.1016/j.jpdc.2013.10.010〉. 〈hal-00908446〉

Partager

Métriques

Consultations de la notice

330

Téléchargements de fichiers

272