A Javaspace-based Framework for Efficient Fault-Tolerant Master-Worker Distributed Applications - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2010

A Javaspace-based Framework for Efficient Fault-Tolerant Master-Worker Distributed Applications

Constantinos Makassikis
  • Fonction : Auteur
  • PersonId : 885356
Virginie Galtier

Résumé

We propose a framework built around a JavaSpace to ease the development of bag-of-tasks applications. The framework may optionally and automatically tolerate transient crash failures occurring on any of the distributed elements. It relies on checkpointing and underlying middleware mechanisms to do so. To further improve checkpointing efficiency, both in size and frequency, the programmer can introduce intermediate user-defined checkpoint data and code within the task processing program. The framework used without fault tolerance accelerates application development, does not introduce runtime overhead and yields to expected speedup. When enabling fault tolerance, our framework allows, despite failures, correct completion of applications with limited runtime and data storage overheads. Experiments run with up to 128 workers study the impact of some user-related and implementation-related parameters on overall performance, and reveal good performances for classical JavaSpace-based master-worker application profiles.
Nous proposons un framework construit au-dessus d'un JavaSpace pour faciliter le développement d'applications de traitement par lot. Le framework peut facultativement et automatiquement tolérer des pannes temporaires survenant sur n'importe lequel de ses éléments. Pour y parvenir, le framework repose sur la réalisation de points de reprise (ou sauvegardes) et des mécanismes de l'intergiciel sous-jacent. Pour améliorer davantage l'efficacité des sauvegardes en taille et en fréquence, le programmeur peut introduire des points de reprise intermédiaires au sein des tâches de travail. L'utilisation du framework permet d'accélerer le développement d'applications. Lorsque la tolérance aux pannes est désactivée, le framework n'introduit aucun surcoût à l'exécution et produit les accélerations attendues. Lorsqu'elle est activée, le framework assure la terminaison correcte de l'application malgré l'occurrence de pannes. Des expériences jusqu'à 128 travailleurs étudient l'impact sur la performance globale de paramètres liés à l'utilisateur ou à l'implantation. De bonnes performances sont observées pour des profiles classiques d'applications JavaSpace de type Maître-Travailleur.
Fichier principal
Vignette du fichier
RR-7496.pdf (239.72 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

inria-00548951 , version 1 (21-12-2010)
inria-00548951 , version 2 (09-11-2011)

Identifiants

  • HAL Id : inria-00548951 , version 2

Citer

Constantinos Makassikis, Virginie Galtier, Stéphane Vialle. A Javaspace-based Framework for Efficient Fault-Tolerant Master-Worker Distributed Applications. [Research Report] RR-7496, INRIA. 2010, pp.18. ⟨inria-00548951v2⟩
181 Consultations
471 Téléchargements

Partager

Gmail Facebook X LinkedIn More