Optimal Cooperative Checkpointing for Shared High-Performance Computing Platforms

Résumé : Ce rapport s’intéresse aux plates-formes de calcul scientifique partagées, i.e., sur lesquelles s’exécutent simultanément plusieurs classes d’applications. Celles-ci sont en compétition pour l’accès aux ressources d’entrées-sorties, à la fois pour leurs opérations de base et pour prendre leurs checkpoints. Nous proposons un modèle et analysons plusieurs stratégies de prise de checkpoints, à période fixe ou dépendant de l’application, avec ou sans interférence, bloquante ou non. Nous déterminons une borne inférieure sur la fraction de temps nécessairement perdue par la plateforme pour toute stratégie de checkpoint/redémarrage, et nous montrons expérimentalement que notre stratégie coopérative obtient des performances très proches de cette borne. Dans notre stratégie coopérative, les périodes de checkpoint des applications ne sont pas nécessairement celles calculées par la formule de Young/Daly, car la bande passante disponible ne permet pas toujours de les mettre en oeuvre, et certaines applications ont nécessairement une période plus longue (et donc sous-optimale). Nous donnons les résultats d’un ensemble de simulations menées avec des ensembles de paramètres pour les applications et les plates-formes qui correspondent à des scénarios actuels et prospectifs.
Type de document :
Rapport
[Research Report] RR-9109, INRIA. 2017, pp.1-20
Liste complète des métadonnées

Littérature citée [43 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01621295
Contributeur : Equipe Roma <>
Soumis le : lundi 23 octobre 2017 - 10:57:20
Dernière modification le : mardi 16 janvier 2018 - 15:35:16

Fichier

rr9109.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01621295, version 1

Collections

Citation

Thomas Hérault, Yves Robert, Aurélien Bouteiller, Dorian Arnold, Kurt Ferreira, et al.. Optimal Cooperative Checkpointing for Shared High-Performance Computing Platforms. [Research Report] RR-9109, INRIA. 2017, pp.1-20. 〈hal-01621295〉

Partager

Métriques

Consultations de la notice

204

Téléchargements de fichiers

25