Scheduling for fault-tolerance: an introduction - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2016

Scheduling for fault-tolerance: an introduction

Résumé

This report provides an introduction to the design of scheduling algorithms to cope with faults on large-scale parallel platforms. We study \emph{checkpointing} and show how to derive the optimal checkpointing period. Then we explain how to combine checkpointing with \emph{fault prediction}, and discuss how the optimal period is modified when this combination is used. Finally we follow the very same approach for the combination of checkpointing with \emph{replication}.
Fichier principal
Vignette du fichier
rr8971.pdf (835.05 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01393192 , version 1 (07-11-2016)
hal-01393192 , version 2 (13-12-2016)

Identifiants

  • HAL Id : hal-01393192 , version 2

Citer

Guillaume Aupy, Yves Robert. Scheduling for fault-tolerance: an introduction. [Research Report] RR-8971, INRIA. 2016. ⟨hal-01393192v2⟩
174 Consultations
154 Téléchargements

Partager

Gmail Facebook X LinkedIn More