Transparent Message-Passing Parallel Applications Checkpointing in Kerrighed

Matthieu Fertré; Christine Morin

Rapport (Rapport De Recherche) Année : 2005

Transparent Message-Passing Parallel Applications Checkpointing in Kerrighed

(1) , (1)

Matthieu Fertré

Fonction : Auteur

Programming distributed parallel systems for large scale numerical simulation

Christine Morin

Fonction : Auteur
PersonId : 1557
IdHAL : christine-morin
IdRef : 059647485

Programming distributed parallel systems for large scale numerical simulation

Résumé

Nowadays, clusters are widely used to execute scientific applications. These applications are often message-passing parallel applications with long execution time. Since the number of nodes in clusters is growing, the probability of a node failure during the execution of an application increases and the application execution time may be greater than the cluster mean time between failures (MTBF). To avoid restarting application from the beginning, some fault tolerant mechanisms such as checkpoint/restart are needed. Currently, checkpoint/restart mechanisms are either implemented directly in the application source code by applications programmers or are integrated in communication environments such as MPI or PVM. We propose in this paper a new approach in which checkpoint/restart mechanisms for parallel applications are implemented in a cluster single system image operating system. While this kernel level approach is more complex to implement than other approaches, it is more general because it does not require any modification, compilation or relinking of the applications whatever the communication environment they rely on. Our approach has been implemented in Kerrighed single system image operating system based on Linux. Performance results are presented in this paper. // Les grappes de calculateurs sont très utilisées pour les applications scientifiques. Ces applications sont souvent des applications parallèles de longue durée communiquant par message. Comme le nombre de noeuds dans les grappes de calculateurs augmente, la probabilité de défaillance d'un noeud augmente elle aussi et la durée d'exécution d'une application peut être supérieure au temps moyen entre défaillances de la grappe. Dans ce contexte, pour éviter de relancer les applications depuis le début en cas de défaillance, des mécanisme de tolérance aux fautes comme la sauvegarde et la restauration de point de reprises d'application sont attrayants. Généralement, les mécanismes de sauvegarde et restauration de point de reprise sont mis en oeuvre directement dans le code source de l'application ou sont intégrés dans les environnements de communication comme MPI ou PVM. Nous proposons dans cet article une nouvelle approche qui consiste à intégrer les mécanismes de sauvegarde et restauration de point de reprise d'application parallèle dans un système d'exploitation à image unique pour grappe de calculateurs. Cette approche système est plus complexe à mettre en oeuvre que les autres mais elle est plus générale car elle ne nécessite pas de modification, recompilation ou réédition de liens des applications quelque soit l'environnement de communication sur lequel ces dernières reposent. Notre approche a été mise en oeuvre dans le système d'exploitation à image unique Kerrighed fondé sur Linux. Des résultats d'une évaluation de performances sont présentés dans cet article.

Mots clés

Single system image checkpointing parallel application global coordination KERRIGHED cluster // Sauvegarde et restauration de points de reprise applications parallèles coordination globale système d'exploitation à image unique grappes de calculateurs

Domaines

Système d'exploitation [cs.OS]

Fichier principal

PI-1768.pdf (223.4 Ko)

Anne Jaigu : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00000868

Soumis le : lundi 28 novembre 2005-15:07:34

Dernière modification le : vendredi 24 mars 2023-14:52:47

Archivage à long terme le : vendredi 2 avril 2010-23:04:40

Dates et versions

inria-00000868 , version 1 (28-11-2005)

Identifiants

HAL Id : inria-00000868 , version 1

Citer

Matthieu Fertré, Christine Morin. Transparent Message-Passing Parallel Applications Checkpointing in Kerrighed. [Research Report] PI 1768, 2005, pp.13. ⟨inria-00000868⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

EC-PARIS UNIV-RENNES1 CNRS INRIA ENS-CACHAN INSA-RENNES IRISA INRIA2 LARA UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES INSA-GROUPE UR1-MATH-NUM ENS-PARIS-SACLAY

120 Consultations

93 Téléchargements

Transparent Message-Passing Parallel Applications Checkpointing in Kerrighed

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager