Un protocole de recouvrement arrière hiérarchique pour applications MPI de très grande taille avec émissions déterministes

Résumé : Les protocoles de sauvegarde de points de reprise coordonnés sont les protocoles de recouvrement ar-rière les plus répandus dans les applications MPI de calcul haute performance. Cependant, avec l'aug-mentation du nombre de composants des machines, les défaillances deviennent de plus en plus fré-quentes et le redémarrage de tous les processus de l'application après une défaillance n'est plus une solution adaptée. En s'appuyant sur le déterminisme d'émission de la majeure partie des applications MPI, nous proposons dans cet article un nouveau protocole de recouvrement arrière hiérarchique fondé sur la combinaison d'un protocole de sauvegarde de points de reprise coordonné et d'un protocole à en-registrement de messages. Ce protocole profite des caractéristiques des schémas de communications de la plupart de ces applications qui permettent d'identifier des groupes de processus communiquant fré-quemment entre eux, et ainsi d'appliquer un protocole différent au sein des groupes et entre les groupes. Nos évaluations montrent qu'en appliquant un protocole de sauvegarde de points de reprise coordonné au sein des groupes, et en enregistrant seulement les messages entre processus de différents groupes, il est possible de limiter les conséquences d'une défaillance à un petit sous-ensemble des processus de l'application, tout en sauvegardant le plus souvent moins de 20% des données échangées au sein de l'application au cours de son exécution.
Type de document :
Communication dans un congrès
Rencontres Francophones du Parallèlisme (RenPar20), 2011, Saint Malo, France. 2011
Liste complète des métadonnées

Littérature citée [14 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01121939
Contributeur : Thomas Ropars <>
Soumis le : lundi 2 mars 2015 - 21:20:34
Dernière modification le : jeudi 9 février 2017 - 15:47:27
Document(s) archivé(s) le : mardi 2 juin 2015 - 09:55:42

Fichier

renpar2011.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01121939, version 1

Collections

Citation

Amina Guermouche, Thomas Ropars. Un protocole de recouvrement arrière hiérarchique pour applications MPI de très grande taille avec émissions déterministes. Rencontres Francophones du Parallèlisme (RenPar20), 2011, Saint Malo, France. 2011. 〈hal-01121939〉

Partager

Métriques

Consultations de la notice

103

Téléchargements de fichiers

101