Abstract : In this paper, we design and analyze strategies to replicate the execution of an application on two different platforms
subject to failures, using checkpointing on a shared stable storage. We derive the optimal pattern size~$W$
for a periodic checkpointing strategy where both platforms concurrently try and execute $W$ units of work before checkpointing. The first platform that completes its pattern takes a checkpoint,
and the other platform interrupts its execution to synchronize from that checkpoint.
We compare this strategy to a simpler on-failure checkpointing strategy, where a checkpoint is taken by one platform
only whenever the other platform encounters a failure. We use first or second-order approximations to compute
overheads and optimal pattern sizes, and show through extensive simulations
that these models are very accurate. The simulations
show the usefulness of a secondary platform to reduce execution time, even when the platforms have relatively different speeds: in average, over a wide range of scenarios, the overhead is reduced by $30\%$.
The simulations also
demonstrate that the periodic checkpointing strategy is globally more efficient, unless platform speeds are quite close.
Résumé : Ce rapport propose un modèle et une étude analytique de deux stratégies de réplication, combinée avec des prises de checkpoint, sur plates-formes hétérogènes. L'application s'exécute sur deux plates-formes de vitesses et taux de fautes différents, et qui partagent un
espace de stockage stable. Nous déterminons la taille optimale du travail $W$ pour une stratégie périodique où les deux plates-formes tentent d'exécuter $W$ unités de travail avant de prendre un checkpoint. La première plate-forme qui réussit prend ce checkpoint, et l'autre s'interrompt
et se resynchronise avec la première à partir du checkpoint. Nous comparons cette stratégie avec une stratégie plus simple, dite de checkpoint-sur-faute, où un checkpoint n'est pris sur une plate-forme que quand l'autre est sujette à une faute. Nous calculons des approximations du premier et deuxième ordre pour la taille optimale W, et montrons par simulationque celles-ci sont très précises. Les simulations montrent l'utilité d'une seconde plate-forme, même lorsqu'elle a une vitesse relativement différente, puisqu'on gagne 30% en moyenne. En- n, la stratégie périodique est la plus efficace globalement, sauf si les deux plates-formes sont des vitesses très proches.