FT-GReLoSSS: a Skeletal-based approach towards application parallelization and low-overhead fault tolerance - Inria - Institut national de recherche en sciences et technologies du numérique Access content directly
Reports (Research Report) Year : 2011

FT-GReLoSSS: a Skeletal-based approach towards application parallelization and low-overhead fault tolerance

Abstract

FT-GReLoSSS (FTG) is a C++/MPI framework to ease the development of fault-tolerant parallel applications belonging to a SPMD family termed GReLoSSS. The originality of FTG is to rely on the MoLOToF programming model principles to facilitate the addition of an efficient checkpoint-based fault tolerance at the application level. Main features of MoLOToF encompass a structured application development based on fault-tolerant "skeletons" and lay emphasis on collaborations. The latter exist between the programmer, the framework and the underlying runtime middleware/environment. Together with the structured approach they contribute into achieving reduced checkpoint sizes, as well as reduced checkpoint and recovery overhead at runtime. This paper introduces the main principles of MoLOToF and the design of the FTG framework. To properly assess the framework's ease of use for a programmer as well as fault tolerance efficiency, a series of benchmarks were conducted up to 128 nodes on a multicore PC cluster. These benchmarks involved an existing parallel financial application for gas storage valuation, originally developed in collaboration with EDF company, and a rewritten version which made use of the FTG framework and its features. Experiments results display low-overhead compared to existing system-level counterparts.
FT-GReLoSSS (FTG) est un framework C++/MPI pour faciliter le développement d'applications parallèles tolérantes aux pannes et appartenant à une famille d'algorithmes SPMD nommée GReLoSSS. L'originalité de FTG est de reposer sur les principes du modèle de programmation MoLOToF pour faciliter l'ajout d'une tolérance aux pannes de niveau applicatif fondée sur la réalisation de points de reprise (checkpointing). MoLOToF se caractérise d'une part par un développement structuré d'applications fondé sur des "squelettes" tolérants aux pannes, et d'autre part, par l'utilisation de collaborations. Ces dernières existent entre le programmeur, le framework et l'intergiciel d'exécution/environnement sous-jacents. Couplées à l'approche structurée, les collaborations contribuent à obtenir des tailles de points de reprise réduites ainsi que des surcoûts de checkpointing et de reprise réduits. Ce rapport introduit les principaux principes de MoLOToF ainsi que la conception du framework FTG. Pour évaluer la facilité d'utilisation du framework et l'efficacité de la tolérance aux pannes, une série de tests ont été menés jusqu'à 128 nœuds d'une grappe de PCs multi-cœurs. Ces tests impliquaient une application financière existante de valorisation d'actifs de stockage de gaz, initialement développée en collaboration avec EDF, et qui a été adaptée pour pouvoir profiter de FTG et de ses fonctionnalités. Les résultats expérimentaux témoignent de surcoûts faibles par rapport à des solutions équivalentes de niveau système.
Fichier principal
Vignette du fichier
RR-7797.pdf (232.99 Ko) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

hal-00640558 , version 1 (13-11-2011)

Identifiers

  • HAL Id : hal-00640558 , version 1

Cite

Constantinos Makassikis, Stéphane Vialle, Xavier Warin. FT-GReLoSSS: a Skeletal-based approach towards application parallelization and low-overhead fault tolerance. [Research Report] RR-7797, INRIA. 2011. ⟨hal-00640558⟩
254 View
122 Download

Share

Gmail Facebook X LinkedIn More