A Framework for High Availability Based on a Single System Image

Geoffroy Vallée 1 Christine Morin 1 Stephen Scott 2
1 PARIS - Programming distributed parallel systems for large scale numerical simulation
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, ENS Cachan - École normale supérieure - Cachan, Inria Rennes – Bretagne Atlantique
Résumé : High availability (HA) is today an important issue in the domain of cluster computing, clusters being more and more larger, introducing a lot of failures. Today, the literature provides a lot of different HA strategies to tolerate application failures (applications being sequential or parallel). Unfortunately, it is still difficult to implement these HA policies inside a real system, and therefore the study of these policies is most of the time just theoretic, without real implementation. Therefore, a framework to ease the implementation of such policies is interesting. Moreover, a single system image (SSI), thanks to mechanisms for the global management of cluster resources, is a good candidate to provide such a framework. This paper presents the preliminary study of this framework on top of the Kerrighed SSI. \\ La haute disponibilité est aujourd'hui un problème important pour les grappes de calculateurs, ceux-ci ayant une taille de plus en plus grande, introduisant de nombreuses fautes. Pour cela, la littérature offre de nombreuses stratégies permettant de tolérer les fautes d'applications (que les applications soient séquentielles ou parallèles). Malheureusement, la mise en \oe uvre de ces politiques de haute disponibilité est toujours difficile et leur étude est donc très souvent limité à une étude théorique, sans réelle mise en oeuvre. Un environnement dédié simplifiant la mise en oeuvre de telles politiques est donc intéresant. De plus, un Système à Image Unique (Single System Image - SSI), grâce à ses mécanismes de gestion globale des ressources de la grappe, est un bon candidat pour offrir un tel environnement. Ce document présente l'étude préliminaire d'un tel environnement fondé sur le SSI Kerrighed.
Document type :
Reports
Complete list of metadatas

Cited literature [17 references]  Display  Hide  Download

https://hal.inria.fr/inria-00000470
Contributor : Anne Jaigu <>
Submitted on : Friday, October 21, 2005 - 10:39:56 AM
Last modification on : Monday, December 10, 2018 - 11:34:08 AM
Long-term archiving on : Thursday, April 1, 2010 - 10:51:40 PM

Identifiers

  • HAL Id : inria-00000470, version 1

Citation

Geoffroy Vallée, Christine Morin, Stephen Scott. A Framework for High Availability Based on a Single System Image. [Research Report] PI 1754, 2005, pp.10. ⟨inria-00000470⟩

Share

Metrics

Record views

240

Files downloads

120