Desempenho de operacoes de checkpoint/restart em aplicacoes MPI

Résumé : É comum em intranets coorporativas que as máquinas usadas como ponto de trabalho fiquem ociosas fora do horário de expediente. O projeto RNTLIGGI tem por objetivo recuperar as máquinas em seus períodos de ociosidade para comporem um cluster virtual e executarem aplicações durante esse período. Entretanto, se a aplicação possuir uma duração de execução superior ao período de ociosidade é necessário salvar o processamento feito até então para retomálo no próximo período de ociosidade. Nesse contexto, o uso de mecanismos de checkpoint/restart surge como uma possibilidade para solucionar o problema de descontinuidade do período de processamento. Neste artigo é apresentada a solução proposta no projeto IGGI e discutese os principais fatores que influenciam o tempo necessário ao checkpointing, em especial, em aplicações paralelas baseadas em MPI.
Type de document :
Communication dans un congrès
VII Workshop on Workshop em Sistemas Computacionais de Alto Desempenho (WSCAD), Oct 2006, Ouro Preto, Brazil. 2006
Liste complète des métadonnées

https://hal.inria.fr/hal-00697358
Contributeur : Ist Rennes <>
Soumis le : mardi 15 mai 2012 - 10:58:16
Dernière modification le : mercredi 11 avril 2018 - 01:54:16

Identifiants

  • HAL Id : hal-00697358, version 1

Collections

Citation

Fabrice Dupros, Alexandre Carissimi, Jean-François Méhaut. Desempenho de operacoes de checkpoint/restart em aplicacoes MPI. VII Workshop on Workshop em Sistemas Computacionais de Alto Desempenho (WSCAD), Oct 2006, Ouro Preto, Brazil. 2006. 〈hal-00697358〉

Partager

Métriques

Consultations de la notice

296