HydEE : Vers un protocole de recouvrement arrière hiérarchique pour les machines exascales De l'exploitation du déterminisme des émissions dans les protocoles de recouvrement arrière - Archive ouverte HAL Access content directly
Journal Articles Revue des Sciences et Technologies de l'Information - Série TSI : Technique et Science Informatiques Year : 2012

HydEE : Vers un protocole de recouvrement arrière hiérarchique pour les machines exascales De l'exploitation du déterminisme des émissions dans les protocoles de recouvrement arrière

(1) , (2) , (3)
1
2
3
Thomas Ropars
Amina Guermouche
  • Function : Author
  • PersonId : 170800
  • IdHAL : aguermouche
Franck Cappello
  • Function : Author
  • PersonId : 828491

Abstract

The move towards exascale super-computers requires new fault tolerance solutions. Regarding parallel message passing applications, existing rollback-recovery protocols are not suited. To be able to deal with very large scale applications and high failure rate, a protocol should be able to confine failures consequences to a small subset of the processes, while providing good failure free performance, and logging a limited amount of data, especially in memory. To fulfill these needs, we propose HydEE, a hierarchical rollback-recovery protocol that combines coordinated checkpointing and message logging. HydEE leverages the send-determinism of scienfitic parallel applications to tolerate multiple failures without relying on a stable storage. Our experiments show that for most applications, saving less than 15% of the messages payload in memory is enough to limit the rollbacks after a failure to less than 15% of the processes.
Dans la perspective de la conception de super-calculateurs exascale, de nouvelles solutions de tolérance aux fautes doivent être trouvées. Pour les applications parallèles à échange de messages, les protocoles de recouvrement arrière existants ne sont pas adaptés. Pour pou-voir supporter des applications de très grande taille et des fréquences de défaillance élevées, un protocole doit être capable de confiner les conséquences des défaillances à un petit sous ensemble de processus tout en offrant de bonnes performances en fonctionnement normal, et en limitant les quantités de données à sauvegarder, en particulier en mémoire. Pour répondre à ces objectifs, nous proposons HydEE, un protocole de recouvrement arrière hiérarchique com-binant sauvegarde de points de reprise coordonnés et enregistrement de messages. HydEE se fonde sur le déterminisme des émissions des applications parallèles du calcul scientifique pour pouvoir tolérer des fautes multiples sans recourir à un support de stockage stable. Nos évalua-tions montrent que pour la plupart des applications, sauvegarder le contenu de moins de 15% des messages en mémoire, permet de limiter les retours arrière après une défaillance à moins de 15% des processus. ABSTRACT. The move towards exascale super-computers requires new fault tolerance solutions. Regarding parallel message passing applications, existing rollback-recovery protocols are not suited. To be able to deal with very large scale applications and high failure rate, a proto-Technique et science informatiques
Fichier principal
Vignette du fichier
tsi2011.pdf (231.05 Ko) Télécharger le fichier
Loading...

Dates and versions

hal-01952884 , version 1 (12-12-2018)

Identifiers

  • HAL Id : hal-01952884 , version 1

Cite

Thomas Ropars, Amina Guermouche, Franck Cappello. HydEE : Vers un protocole de recouvrement arrière hiérarchique pour les machines exascales De l'exploitation du déterminisme des émissions dans les protocoles de recouvrement arrière. Revue des Sciences et Technologies de l'Information - Série TSI : Technique et Science Informatiques, 2012, 31 (8-10), pp.1049-1078. ⟨hal-01952884⟩
133 View
138 Download

Share

Gmail Facebook Twitter LinkedIn More