Tolérance aux pannes dans l'exécution distribuée de graphes de tâches

Romain Lion

Communication Dans Un Congrès Année : 2019

Tolérance aux pannes dans l'exécution distribuée de graphes de tâches

(1)

Romain Lion

Fonction : Auteur
PersonId : 1054805

STatic Optimizations, Runtime Methods

Résumé

Les plus grands supercalculateurs rassemblent un nombre toujours croissant d’unités de calcul, ce qui augmente d’autant le taux de pannes. Des méthodes de checkpoint/restart ont été proposées pour éviter que, lorsqu’un nœud est totalement perdu, l’on doive reprendre l’exécution de l’application depuis son départ. Ces méthodes sont cependant en général transparentes et ne profitent pas d’informations connues sur le comportement de l’application. Inversement, le paradigme de programmation par graphe de tâches fournit l’opportunité de proposer des méthodes de checkpoint/restart bien plus judicieuses. Nous proposons ainsi une approche qui permettra de ne sauvegarder que les données utiles en cohérence avec les communications de l’application, de supporter un redémarrage local, tout en exhibant une interface de programmation simple intégrée à la programmation de graphe de tâches.

Mots clés

Tolérance aux pannes Graphe de tâches MPI Support d’exécution

Domaines

Calcul parallèle, distribué et partagé [cs.DC]

Fichier principal

Compas_Romain_LION_submitted_final.pdf (138.57 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Samuel Thibault : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-02296118

Soumis le : mardi 24 septembre 2019-18:40:20

Dernière modification le : jeudi 15 février 2024-03:30:57

Archivage à long terme le : dimanche 9 février 2020-16:53:28

Dates et versions

hal-02296118 , version 1 (24-09-2019)

Identifiants

HAL Id : hal-02296118 , version 1

Citer

Romain Lion. Tolérance aux pannes dans l'exécution distribuée de graphes de tâches. COMPAS 2019 - Conférence d'informatique en Parallélisme, Architecture et Système, Jun 2019, Anglet, France. ⟨hal-02296118⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-RENNES1 CNRS INRIA IRISA INRIA2 UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES UR1-MATH-NUM

158 Consultations

226 Téléchargements

Tolérance aux pannes dans l'exécution distribuée de graphes de tâches

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager