Coping with silent and fail-stop errors at scale by combining replication and checkpointing

Résumé : Ce rapport propose un modèle et une étude analytique de la réplication en tant que technique pour détecter et corriger les erreurs silencieuses. Bien que d’autres techniques existent pour les applications HPC, basées sur des algorithmes (ABFT), préservation d’invariant, ou analyse de données, la réplication reste la technique la plus transparente et la moins intrusive. Nous explorons le bon niveau (duplication, triplication ou plus) dans deux cadres différents : (i) quand la plateforme est soumise seulement aux erreurs silencieuses, et (ii) lorsque la plateforme est soumise à la fois aux pannes et aux erreurs silencieuses. Un niveau de réplication élevé est plus coûteux en terme de ressources utilisées, mais tolère un plus grand nombre d’erreurs, il y a donc un équilibre à trouver. La réplication est combinée avec des checkpoints et se présente sous deux formes : réplication de processus et réplication de groupe. La réplication de processus s’applique aux applications à passage de messages avec des processus communicants. Chaque processus est répliqué, et la plate-forme est composée de paires, ou triplets de processus. La réplication de groupe s’applique à des applications type boîte noire, dont l’exécution parallèle est répliquée plusieurs fois. La plate-forme est alors partitionnée en deux moitiés (ou trois tiers). Dans les deux scénarios, les résultats sont comparés avant chaque checkpoint, qui est effectué seulement lorsque les deux résultats (duplication) ou deux sur trois (triplication) coïncident. Sinon, une ou plusieurs erreurs silencieuses ont été détectées, et l’application redémarre depuis le dernier checkpoint, de la même façon que lorsqu’une panne survient. Nous proposons une étude analytique détaillée des deux scénarios ainsi que les paramètres optimaux fonction du taux d’erreur, du coût du checkpoint, et de la taille de la plate-forme. Nous donnons également les résultats d’un ensemble de simulations qui viennent corroborer le modèle analytique.
Type de document :
Rapport
[Research Report] RR-9106, University of Basel; Ecole Normale Supérieure de Lyon - ENS LYON; Vanderbilt University; University of Tennessee Knoxville, USA; Argonne National Laboratory. 2017
Liste complète des métadonnées

Littérature citée [50 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01616514
Contributeur : Equipe Roma <>
Soumis le : vendredi 13 octobre 2017 - 17:21:14
Dernière modification le : vendredi 20 avril 2018 - 15:44:27
Document(s) archivé(s) le : dimanche 14 janvier 2018 - 14:35:18

Fichier

RR-9106.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01616514, version 1

Citation

Anne Benoit, Aurélien Cavelan, Franck Cappello, Padma Raghavan, Yves Robert, et al.. Coping with silent and fail-stop errors at scale by combining replication and checkpointing. [Research Report] RR-9106, University of Basel; Ecole Normale Supérieure de Lyon - ENS LYON; Vanderbilt University; University of Tennessee Knoxville, USA; Argonne National Laboratory. 2017. 〈hal-01616514〉

Partager

Métriques

Consultations de la notice

237

Téléchargements de fichiers

59