Resilient and energy-efficient scheduling algorithms at scale

Guillaume Aupy 1, 2
Résumé : Dans cette thèse, j'ai considéré d'un point de vue théorique deux problèmes importants pour les futures plateformes dîtes Exascales : les restrictions liées à leur fiabilité ainsi que les contraintes énergétiques. En première partie de cette thèse, je me suis intéressé à l'étude de placements optimal de ces checkpoints dans un but de minimisation de temps total d'exécution. En particulier, j'ai considéré les checkpoints périodiques et coordonnés. J'ai considéré des prédicteurs de fautes capables de prévoir, de manière imparfaite, les fautes arrivant sur la plateforme. Dans ce contexte, j'ai conçu des algorithmes efficaces pour résoudre mes problèmes. Dans un deuxième temps, j'ai considéré des fautes silencieuses. Ces fautes ne peuvent être détectées qu'uniquement par un système de vérification. Dans le cas où une de ces fautes est détectée, l'utilisateur doit retourner au point de sauvegarde le plus récent qui n'a pas été affecté par cette faute, si un tel point existe ! Dans ce contexte, j'ai à nouveau proposé des algorithmes optimaux au premier ordre, mixant points de sauvegarde et points de vérification. Dans la seconde partie de cette thèse, j'ai considéré des problèmes énergétiques liés à ces mêmes plateformes. Ces problèmes critiques doivent être reliés aux problèmes de fiabilité de la partie précédente. Dans ce contexte, j'ai couplé des techniques de baisse de consommation énergétique à des techniques d'augmentation de fiabilité comme la reexécution, la réplication ainsi que le checkpoint. Pour ces différents problèmes, j'ai pu fournir des algorithmes dont l'efficacité a été montrée soit au travers de simulations, soit grâce à des preuves mathématiques.
Type de document :
Thèse
Data Structures and Algorithms [cs.DS]. École Normale Supérieure de Lyon, 2014. English. 〈NNT : 2014ENSL0928〉
Liste complète des métadonnées

Littérature citée [145 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/tel-01075111
Contributeur : Equipe Roma <>
Soumis le : jeudi 16 octobre 2014 - 16:06:31
Dernière modification le : vendredi 20 avril 2018 - 15:44:27
Document(s) archivé(s) le : samedi 17 janvier 2015 - 10:50:12

Fichier

Licence


Distributed under a Creative Commons Paternité 4.0 International License

Identifiants

  • HAL Id : tel-01075111, version 1

Citation

Guillaume Aupy. Resilient and energy-efficient scheduling algorithms at scale. Data Structures and Algorithms [cs.DS]. École Normale Supérieure de Lyon, 2014. English. 〈NNT : 2014ENSL0928〉. 〈tel-01075111〉

Partager

Métriques

Consultations de la notice

433

Téléchargements de fichiers

198