8481 articles  [english version]

hal-00720401, version 1

Impact of fault prediction on checkpointing strategies

Guillaume Aupy (, http://gaupy.org) 1, Yves Robert () a1, Frédéric Vivien () b1, Dounia Zaidouni () b1

N° RR-8023 (2012)

Résumé : This paper deals with the impact of fault prediction techniques on checkpointing strategies. We extend the classical analysis of Young in the presence of a fault prediction system, which is characterized by its recall and its precision, and which provides either exact or window-based time predictions. We succeed in deriving the optimal value of the checkpointing period (thereby minimizing the waste of resource usage due to checkpoint overhead) in all scenarios. These results lay the foundations for future experimental validation of the model.

  • a –  École Normale Supérieure de Lyon
  • b –  INRIA
  • 1 :  Laboratoire de l'Informatique du Parallélisme (LIP)
  • Université de Lyon – CNRS : UMR5668 – INRIA – École Normale Supérieure - Lyon – Université Claude Bernard - Lyon I
  • Domaine : Informatique/Calcul parallèle, distribué et partagé
    Informatique/Algorithme et structure de données
  • Mots-clés : Fault-tolerance – checkpointing – prediction – migration – model – exascale
  • Référence interne : RR-8023
  • Versions disponibles :  v1 (24-07-2012) v2 (08-10-2012)
 
  • hal-00720401, version 1
  • oai:hal.inria.fr:hal-00720401
  • Contributeur : 
  • Soumis le : Mardi 24 Juillet 2012, 14:27:46
  • Dernière modification le : Mardi 24 Juillet 2012, 14:52:26