Self-Healing of Operational Workflow Incidents on Distributed Computing Infrastructures

Rafael Ferreira da Silva 1, * Tristan Glatard 1 Frédéric Desprez 2
* Auteur correspondant
1 Images et Modèles
CREATIS - Centre de Recherche en Acquisition et Traitement de l'Image pour la Santé
Résumé : Les infrastructures de calcul distribué sont couramment utilisées à travers des environnements applicatifs dédiés, mais l'administration de ces environnements demande un effort humain important pour résoudre les incidents qui surviennent en production. Ce rapport présente une méthode d'administration automatique qui quantifie le degré des incidents touchant les activités des chaînes de traitements. Ce degré est obtenu à partir de métriques mesurant le retard des dernières tâches, l'efficacité de l'application, les problèmes de transfert de données et la spécificité d'un incident à un site. Ces métriques sont suffisamment simples pour être calculées en ligne, et elles font très peu d'hypothèses sur les caractéristiques des applications et des ressources. A partir de leur degré, les incidents sont classés en niveaux et associés à des ensembles d'actions sélectionnées à partir de règles d'association qui modélisent la corrélation entre niveaux. Nous étudions particulièrement le retard des dernières tâches et nous proposons un algorithme pour contrôler leur réplication. Notre méthode d'administration automatique est paramétrée à partir de traces d'applications réelles acquises en production sur l'infrastructure de grille européenne (EGI). Des résultats expérimentaux obtenus sur la Plate-forme d'Imagerie Virtuelle (VIP) montrent que la méthode peut accélérer l'exécution jusqu'à un facteur 4, économise 26% de ressources par rapport à une exécution-témoin, et détecte correctement les incidents qui ne peuvent pas être résolus.
Type de document :
Rapport
[Research Report] RR-8022, INRIA. 2012, pp.24
Liste complète des métadonnées

Littérature citée [34 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00720369
Contributeur : Frédéric Desprez <>
Soumis le : mardi 24 juillet 2012 - 13:34:15
Dernière modification le : vendredi 22 juin 2018 - 16:36:01
Document(s) archivé(s) le : vendredi 16 décembre 2016 - 02:38:52

Fichiers

RR-8022.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00720369, version 1

Citation

Rafael Ferreira da Silva, Tristan Glatard, Frédéric Desprez. Self-Healing of Operational Workflow Incidents on Distributed Computing Infrastructures. [Research Report] RR-8022, INRIA. 2012, pp.24. 〈hal-00720369〉

Partager

Métriques

Consultations de la notice

317

Téléchargements de fichiers

216