Resilience for Stencil Computations with Latent Errors

Résumé : Les projections et mesures pour les systèmes exascale ($10^9$ coeurs) suggèrent une augmentation très importante du taux d’erreur. Une telle augmentation fait de la résilience un sujet critique, et risque d’aggraverl’impact des erreurs qui “s’échappent”, corrompant silencieusement la mémoire. Ces erreurs sont souvent détectées par des tests logiciels au niveau de l’application, mais avec une latence de détection importante, et sont donc connues sous le nom d’erreurs latentes. Nous explorons une approche appeléeapplication-based-focus-recovery, ou ABFR, afin de relancer l’exécution efficacement, suit à une erreur. En particulier, nous présentons une étude de cas pour les applications de type stencil, montrant comment ABFR concentre les calculs de récupération où ils sont nécessaire, utilisant des tests et des élagages intelligents pour réduire les calculs de récupération, et permettre le recouvrement avec les calculs de l’application. Nous analysons et caractérisons l’approche ABFR pour les applications de type stencil, créant un modèle de performance paramétré par le taux d’erreur et l’interval de détection (la latence). Nous comparons les projections du modèle aux résultats expérimentaux avec l’application stencil Chombo, validant le modèle et montrant que ABFR permet d’obtenir une réduction significative du coût de récupération (jusqu’à 400x) et de la latence (jusqu’à 4x). De telles réductions de coût permettent de passer à l’échelle avec des taux d’erreurs latentes élevés.
Type de document :
Rapport
[Research Report] RR-9042, INRIA. 2017
Liste complète des métadonnées

https://hal.inria.fr/hal-01488409
Contributeur : Equipe Roma <>
Soumis le : jeudi 16 mars 2017 - 07:53:58
Dernière modification le : vendredi 20 avril 2018 - 15:44:27
Document(s) archivé(s) le : samedi 17 juin 2017 - 12:23:29

Fichier

RR-9042.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01488409, version 1

Citation

Aiman Fang, Aurélien Cavelan, Yves Robert, Andrew Chien. Resilience for Stencil Computations with Latent Errors. [Research Report] RR-9042, INRIA. 2017. 〈hal-01488409〉

Partager

Métriques

Consultations de la notice

204

Téléchargements de fichiers

118