Modèle de coût algorithmique intégrant des mécanismes de tolérance aux pannes et expérimentations

Résumé : Les grilles et les clusters sont des architectures de plus en plus utilisées dans le domaine du calcul scientifique distribué. Le nombre important de constituants (processeurs, mémoire, interconnexion) dans ces architectures font que le risque de défaillance est très important. Comptetenu de la durée considérable de l'exécution d'une application distribuée, ce risque de défaillance doit être contrôlé par l'utilisation de technique de tolérance aux pannes. Dans cet article, nous présentons deux mécanismes de tolérance aux pannes basés sur une sauvegarde de l'état du futur de l'exécution représenté par un graphe de flot de données. Nous présentons leurs modèles de coût algorithmique intégrant le temps nécessaire pour la sauvegarde de l'état des processus. Nous montrons que pour la classe des programmes considérée et les mécanismes de tolérance aux pannes, les accélérations asymptotiques sont linéaires en fonction du nombre de processeurs. Un prototype existe et des expérimentations montrent que le surcoût à l'exécution peut être amorti, permettant d'envisager des exécutions tolérantes aux pannes qui passent à l'échelle. Des comparaisons expérimentales sur une grappe d'environ 200 processeurs complètent les analyses théoriques.
Type de document :
Communication dans un congrès
RenPar'16 :, Apr 2005, Le Croisic, France. pp.125-136, 2005
Liste complète des métadonnées

https://hal.inria.fr/hal-00689018
Contributeur : Ist Rennes <>
Soumis le : jeudi 19 avril 2012 - 10:59:48
Dernière modification le : mercredi 11 avril 2018 - 01:56:20

Identifiants

  • HAL Id : hal-00689018, version 1

Collections

Citation

Samir Jafar, Thierry Gautier, Jean-Louis Roch. Modèle de coût algorithmique intégrant des mécanismes de tolérance aux pannes et expérimentations. RenPar'16 :, Apr 2005, Le Croisic, France. pp.125-136, 2005. 〈hal-00689018〉

Partager

Métriques

Consultations de la notice

206