Tolérance aux pannes dans l'exécution distribuée de graphes de tâches - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2019

Tolérance aux pannes dans l'exécution distribuée de graphes de tâches

Romain Lion
  • Fonction : Auteur
  • PersonId : 1054805

Résumé

Les plus grands supercalculateurs rassemblent un nombre toujours croissant d’unités de calcul, ce qui augmente d’autant le taux de pannes. Des méthodes de checkpoint/restart ont été proposées pour éviter que, lorsqu’un nœud est totalement perdu, l’on doive reprendre l’exécution de l’application depuis son départ. Ces méthodes sont cependant en général transparentes et ne profitent pas d’informations connues sur le comportement de l’application. Inversement, le paradigme de programmation par graphe de tâches fournit l’opportunité de proposer des méthodes de checkpoint/restart bien plus judicieuses. Nous proposons ainsi une approche qui permettra de ne sauvegarder que les données utiles en cohérence avec les communications de l’application, de supporter un redémarrage local, tout en exhibant une interface de programmation simple intégrée à la programmation de graphe de tâches.
Fichier principal
Vignette du fichier
Compas_Romain_LION_submitted_final.pdf (138.57 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02296118 , version 1 (24-09-2019)

Identifiants

  • HAL Id : hal-02296118 , version 1

Citer

Romain Lion. Tolérance aux pannes dans l'exécution distribuée de graphes de tâches. COMPAS 2019 - Conférence d'informatique en Parallélisme, Architecture et Système, Jun 2019, Anglet, France. ⟨hal-02296118⟩
158 Consultations
226 Téléchargements

Partager

Gmail Facebook X LinkedIn More