Tolérance aux pannes dans l'exécution distribuée de graphes de tâches - Archive ouverte HAL Access content directly
Conference Papers Year :

Tolérance aux pannes dans l'exécution distribuée de graphes de tâches

(1)
1
Romain Lion
  • Function : Author
  • PersonId : 1054805

Abstract

Les plus grands supercalculateurs rassemblent un nombre toujours croissant d’unités de calcul, ce qui augmente d’autant le taux de pannes. Des méthodes de checkpoint/restart ont été proposées pour éviter que, lorsqu’un nœud est totalement perdu, l’on doive reprendre l’exécution de l’application depuis son départ. Ces méthodes sont cependant en général transparentes et ne profitent pas d’informations connues sur le comportement de l’application. Inversement, le paradigme de programmation par graphe de tâches fournit l’opportunité de proposer des méthodes de checkpoint/restart bien plus judicieuses. Nous proposons ainsi une approche qui permettra de ne sauvegarder que les données utiles en cohérence avec les communications de l’application, de supporter un redémarrage local, tout en exhibant une interface de programmation simple intégrée à la programmation de graphe de tâches.
Fichier principal
Vignette du fichier
Compas_Romain_LION_submitted_final.pdf (138.57 Ko) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

hal-02296118 , version 1 (24-09-2019)

Identifiers

  • HAL Id : hal-02296118 , version 1

Cite

Romain Lion. Tolérance aux pannes dans l'exécution distribuée de graphes de tâches. COMPAS 2019 - Conférence d'informatique en Parallélisme, Architecture et Système, Jun 2019, Anglet, France. ⟨hal-02296118⟩
130 View
182 Download

Share

Gmail Facebook Twitter LinkedIn More