Tolérance aux pannes dans l'exécution distribuée de graphes de tâches

Romain Lion 1
1 STORM - STatic Optimizations, Runtime Methods
LaBRI - Laboratoire Bordelais de Recherche en Informatique, Inria Bordeaux - Sud-Ouest
Résumé : Les plus grands supercalculateurs rassemblent un nombre toujours croissant d’unités de calcul, ce qui augmente d’autant le taux de pannes. Des méthodes de checkpoint/restart ont été proposées pour éviter que, lorsqu’un nœud est totalement perdu, l’on doive reprendre l’exécution de l’application depuis son départ. Ces méthodes sont cependant en général transparentes et ne profitent pas d’informations connues sur le comportement de l’application. Inversement, le paradigme de programmation par graphe de tâches fournit l’opportunité de proposer des méthodes de checkpoint/restart bien plus judicieuses. Nous proposons ainsi une approche qui permettra de ne sauvegarder que les données utiles en cohérence avec les communications de l’application, de supporter un redémarrage local, tout en exhibant une interface de programmation simple intégrée à la programmation de graphe de tâches.
Complete list of metadatas

Cited literature [10 references]  Display  Hide  Download

https://hal.inria.fr/hal-02296118
Contributor : Samuel Thibault <>
Submitted on : Tuesday, September 24, 2019 - 6:40:20 PM
Last modification on : Friday, September 27, 2019 - 1:11:46 AM

File

Compas_Romain_LION_submitted_f...
Files produced by the author(s)

Identifiers

  • HAL Id : hal-02296118, version 1

Citation

Romain Lion. Tolérance aux pannes dans l'exécution distribuée de graphes de tâches. COMPAS 2019 - Conférence d'informatique en Parallélisme, Architecture et Système, Jun 2019, Anglet, France. ⟨hal-02296118⟩

Share

Metrics

Record views

39

Files downloads

202