Checkpointing as a Service in Heterogeneous Cloud Environments

Résumé : Le papier expose une approche offrant un support de checkpoint-restart d’applications pour les plateformes cloud. L’approche est agnostique au fournisseur de l’infrastructure. D’une manière générale, un mécanisme de checkpoint-restart permet (a) une tolérance aux pannes uni- forme pour des applications ayant un important temps d’éxécution ; habituellement la tolérance aux pannes est déléguée à des mécanismes propres à chaque application, et (b) un ordonnancement facilité des tâches souscrites au cloud ; des tâches pouvant être suspendues durant l’éxécution de tâches ayant des priorités plus élevées. L’approche proposée supporte également des applications parallèlles et distribuées utilisant à la fois TCP ou l’Infiniband. Cela permet à des applications traditionnelles HPC de s’intégrer facilement à des architectures cloud. Un mécanisme de monitoring d’applications est en outre proposé permettant de juger de l’état d’une application et éventuellement la redémarrer depuis un état précédemment sauvé. Cette approche est elle aussi agnostique quant à l’infrastructure. La validité de ces mécanismes est démontrée par l’implémentation et l’évaluation d’un service utilisant deux plateformes cloud différentes : Snooze and Openstack. L’agnosticité de l’implémentation permet également, pour la première fois, la migration d’applications d’une plateforme cloud à une autre.
Type de document :
Rapport
[Research Report] RR-8633, INRIA-IRISA Rennes Bretagne Atlantique; Northeastern University‎ (Boston, Mass); INRIA. 2014, pp.10
Liste complète des métadonnées

Littérature citée [30 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01086834
Contributeur : Matthieu Simonin <>
Soumis le : mercredi 26 novembre 2014 - 11:23:09
Dernière modification le : mercredi 16 mai 2018 - 11:23:31

Fichier

RR-8633.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01086834, version 2
  • ARXIV : 1411.1958

Citation

Jiajun Cao, Matthieu Simonin, Gene Cooperman, Christine Morin. Checkpointing as a Service in Heterogeneous Cloud Environments. [Research Report] RR-8633, INRIA-IRISA Rennes Bretagne Atlantique; Northeastern University‎ (Boston, Mass); INRIA. 2014, pp.10. 〈hal-01086834v2〉

Partager

Métriques

Consultations de la notice

635

Téléchargements de fichiers

208