Using failure injection mechanisms to experiment and evaluate a hierarchical failure detector - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2006

Using failure injection mechanisms to experiment and evaluate a hierarchical failure detector

Résumé

Computing grids consist of a large-scale, highly-distributed hardware architecture, often built in a hierarchical way, as cluster federations. At such scales, failures are no longer exceptions, but part of the normal behavior. When designing software for grids, developers have to take failures into account, in order to be able to provide a stable service. The fault-tolerance mechanisms need to be validated and evaluated. It is therefore crucial to make experiments at a large scale, with various volatility conditions, in order to measure the impact of failures on the whole system. This paper presents an experimental tool allowing the user to control the volatility conditions during a practical evaluation of fault-tolerant systems. The tool is based on failure-injection mechanisms. We illustrate the usefulness of our tool through an evaluation of a failure detector specifically designed for hierarchical grids. \\ Les grilles de calcul consistent en une architecture matérielle distribuée à grande échelle. Elles sont souvent organisées de manière hiérarchique, par exemple une fédération de grappes de calculateurs. A une telle échelle, les défaillances ne sont plus des exceptions, mais font partie du comportement normal du système. La conception d'un logiciel pour la grille, doit prendre en compte ces défaillances pour fournir un service stable. Les mécanismes de tolérance aux défaillances sont par nature complexes et coûteux, ils doivent donc être validés et évalués. Il est crucial de pouvoir expérimenter à grande échelle un système soumis à différents scénarii de défaillances afin d'observer et d'évaluer son comportement. Ce papier présente un outil permettant d'introduire de la volatilité au cours d'une expérimentation pour évaluer les mécanismes de tolérance aux défaillances. Nous illustrons son utilité à travers un exemple : l'évaluation d'un détecteur de défaillances conçu spécifiquement pour les grilles hiérarchiques.
Fichier principal
Vignette du fichier
PI-1777.pdf (130.33 Ko) Télécharger le fichier
Loading...

Dates et versions

inria-00001068 , version 1 (30-01-2006)

Identifiants

  • HAL Id : inria-00001068 , version 1

Citer

Sébastien Monnet, Marin Bertier. Using failure injection mechanisms to experiment and evaluate a hierarchical failure detector. [Research Report] PI 1777, 2006, pp.19. ⟨inria-00001068⟩
107 Consultations
91 Téléchargements

Partager

Gmail Facebook X LinkedIn More