Scheduling for fault-tolerance: an introduction

Abstract : This report provides an introduction to the design of scheduling algorithms to cope with faults on large-scale parallel platforms. We study \emph{checkpointing} and show how to derive the optimal checkpointing period. Then we explain how to combine checkpointing with \emph{fault prediction}, and discuss how the optimal period is modified when this combination is used. Finally we follow the very same approach for the combination of checkpointing with \emph{replication}.
Type de document :
Rapport
[Research Report] RR-8971, INRIA. 2016
Liste complète des métadonnées

Littérature citée [23 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01393192
Contributeur : Equipe Roma <>
Soumis le : mardi 13 décembre 2016 - 11:56:55
Dernière modification le : vendredi 20 avril 2018 - 15:44:27
Document(s) archivé(s) le : mardi 14 mars 2017 - 12:42:30

Fichier

rr8971.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01393192, version 2

Collections

Citation

Guillaume Aupy, Yves Robert. Scheduling for fault-tolerance: an introduction. [Research Report] RR-8971, INRIA. 2016. 〈hal-01393192v2〉

Partager

Métriques

Consultations de la notice

192

Téléchargements de fichiers

61