Coping with Recall and Precision of Soft Error Detectors

Résumé : De nombreuses méthodes sont disponibles pour détecter les erreurs silencieuses dans les applications de Calcul Haute Performance (HPC). Chaque méthode a un coût, un rappel (fraction de toutes les erreurs qui sont effectivement détectées, i.e., faux négatifs), et une précision (fraction des vraies erreurs parmi toutes les erreurs détectées, i.e., faux positifs). La principale contribution de c travail est de montrer quel(s) détecteur(s) utiliser, et de caractériser le motif de calcul optimale pour une application: combien de détecteurs de chaque type utiliser, ainsi que la longueur du segment de travail qui les précède. Nous prouvons que les détecteurs avec une précision non parfaite sont d'une utilité limitée. Ainsi, nous nous concentrons sur des détecteurs avec une précision parfaite et nous menons une analyse de complexité exhaustive de ce problème d'optimisation, montrant sa NP-complétude et concevant un schéma FPTAS (Fully Polynomial-Time Approximation Scheme). Sur le plan pratique, nous fournissons un algorithme glouton dont la performance est montrée comme étant proche de l'optimal pour un ensemble réaliste de scénarios d'évaluation. De nombreuses simulations démontrent l'utilité de détecteurs avec des résultats faux-négatifs (i.e., des erreurs non détectées), qui sont disponibles à un coût bien moindre que les détecteurs parfaits.
Type de document :
Rapport
[Research Report] RR-8832, ENS Lyon, CNRS & INRIA. 2015, pp.30
Liste complète des métadonnées

Littérature citée [39 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01246639
Contributeur : Equipe Roma <>
Soumis le : vendredi 18 décembre 2015 - 19:13:01
Dernière modification le : vendredi 20 avril 2018 - 15:44:27
Document(s) archivé(s) le : samedi 29 avril 2017 - 22:39:19

Fichier

RR-8832_extended.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01246639, version 1

Collections

Citation

Leonardo Bautista-Gomez, Anne Benoit, Aurélien Cavelan, Saurabh K. Raina, Yves Robert, et al.. Coping with Recall and Precision of Soft Error Detectors. [Research Report] RR-8832, ENS Lyon, CNRS & INRIA. 2015, pp.30. 〈hal-01246639〉

Partager

Métriques

Consultations de la notice

217

Téléchargements de fichiers

103