Resilience for Stencil Computations with Latent Errors - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2017

Resilience for Stencil Computations with Latent Errors

Résilience pour des calculs de type “stencil” avec des erreurs latentes

Résumé

Projections and measurements of error rates in near-exascale and exascale systems suggest a dramatic growth, due to extreme scale ($10^9$ cores), concurrency, software complexity, and deep submicron transistor scaling. Such a growth makes resilience a critical concern, and may increase the incidence of errors that ``escape'', silently corrupting application state. Such errors can often be revealed by application software tests but with long latencies, and thus are known as {\it latent errors}. We explore how to efficiently recover from latent errors, with an approach called application-based focused recovery (ABFR). Specifically we present a case study of stencil computations, a widely useful computational structure, showing how ABFR focuses recovery effort where needed, using intelligent testing and pruning to reduce recovery effort, and enables recovery effort to be overlapped with application computation. We analyze and characterize the ABFR approach on stencils, creating a performance model parameterized by error rate and detection interval (latency). We compare projections from the model to experimental resultswith the Chombo stencil application, validating the model and showing that ABFR on stencil can achieve a significant reductions in error recovery cost (up to 400x) and recovery latency (up to 4x). Such reductions enable efficient execution at scale with high latent error rates.
Les projections et mesures pour les systèmes exascale ($10^9$ coeurs) suggèrent une augmentation très importante du taux d’erreur. Une telle augmentation fait de la résilience un sujet critique, et risque d’aggraverl’impact des erreurs qui “s’échappent”, corrompant silencieusement la mémoire. Ces erreurs sont souvent détectées par des tests logiciels au niveau de l’application, mais avec une latence de détection importante, et sont donc connues sous le nom d’erreurs latentes. Nous explorons une approche appeléeapplication-based-focus-recovery, ou ABFR, afin de relancer l’exécution efficacement, suit à une erreur. En particulier, nous présentons une étude de cas pour les applications de type stencil, montrant comment ABFR concentre les calculs de récupération où ils sont nécessaire, utilisant des tests et des élagages intelligents pour réduire les calculs de récupération, et permettre le recouvrement avec les calculs de l’application. Nous analysons et caractérisons l’approche ABFR pour les applications de type stencil, créant un modèle de performance paramétré par le taux d’erreur et l’interval de détection (la latence). Nous comparons les projections du modèle aux résultats expérimentaux avec l’application stencil Chombo, validant le modèle et montrant que ABFR permet d’obtenir une réduction significative du coût de récupération (jusqu’à 400x) et de la latence (jusqu’à 4x). De telles réductions de coût permettent de passer à l’échelle avec des taux d’erreurs latentes élevés.
Fichier principal
Vignette du fichier
RR-9042.pdf (1.72 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01488409 , version 1 (16-03-2017)

Identifiants

  • HAL Id : hal-01488409 , version 1

Citer

Aiman A Fang, Aurélien A Cavelan, Yves Robert, Andrew A Chien. Resilience for Stencil Computations with Latent Errors. [Research Report] RR-9042, INRIA. 2017. ⟨hal-01488409⟩
137 Consultations
232 Téléchargements

Partager

Gmail Facebook X LinkedIn More