Transparent Message-Passing Parallel Applications Checkpointing in Kerrighed

Matthieu Fertré 1 Christine Morin 1
1 PARIS - Programming distributed parallel systems for large scale numerical simulation
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, ENS Cachan - École normale supérieure - Cachan, Inria Rennes – Bretagne Atlantique
Résumé : Nowadays, clusters are widely used to execute scientific applications. These applications are often message-passing parallel applications with long execution time. Since the number of nodes in clusters is growing, the probability of a node failure during the execution of an application increases and the application execution time may be greater than the cluster mean time between failures (MTBF). To avoid restarting application from the beginning, some fault tolerant mechanisms such as checkpoint/restart are needed. Currently, checkpoint/restart mechanisms are either implemented directly in the application source code by applications programmers or are integrated in communication environments such as MPI or PVM. We propose in this paper a new approach in which checkpoint/restart mechanisms for parallel applications are implemented in a cluster single system image operating system. While this kernel level approach is more complex to implement than other approaches, it is more general because it does not require any modification, compilation or relinking of the applications whatever the communication environment they rely on. Our approach has been implemented in Kerrighed single system image operating system based on Linux. Performance results are presented in this paper. // Les grappes de calculateurs sont très utilisées pour les applications scientifiques. Ces applications sont souvent des applications parallèles de longue durée communiquant par message. Comme le nombre de noeuds dans les grappes de calculateurs augmente, la probabilité de défaillance d'un noeud augmente elle aussi et la durée d'exécution d'une application peut être supérieure au temps moyen entre défaillances de la grappe. Dans ce contexte, pour éviter de relancer les applications depuis le début en cas de défaillance, des mécanisme de tolérance aux fautes comme la sauvegarde et la restauration de point de reprises d'application sont attrayants. Généralement, les mécanismes de sauvegarde et restauration de point de reprise sont mis en oeuvre directement dans le code source de l'application ou sont intégrés dans les environnements de communication comme MPI ou PVM. Nous proposons dans cet article une nouvelle approche qui consiste à intégrer les mécanismes de sauvegarde et restauration de point de reprise d'application parallèle dans un système d'exploitation à image unique pour grappe de calculateurs. Cette approche système est plus complexe à mettre en oeuvre que les autres mais elle est plus générale car elle ne nécessite pas de modification, recompilation ou réédition de liens des applications quelque soit l'environnement de communication sur lequel ces dernières reposent. Notre approche a été mise en oeuvre dans le système d'exploitation à image unique Kerrighed fondé sur Linux. Des résultats d'une évaluation de performances sont présentés dans cet article.
Document type :
Reports
Complete list of metadatas

https://hal.inria.fr/inria-00000868
Contributor : Anne Jaigu <>
Submitted on : Monday, November 28, 2005 - 3:07:34 PM
Last modification on : Friday, November 16, 2018 - 1:22:53 AM
Long-term archiving on : Friday, April 2, 2010 - 11:04:40 PM

Identifiers

  • HAL Id : inria-00000868, version 1

Citation

Matthieu Fertré, Christine Morin. Transparent Message-Passing Parallel Applications Checkpointing in Kerrighed. [Research Report] PI 1768, 2005, pp.13. ⟨inria-00000868⟩

Share

Metrics

Record views

241

Files downloads

104