Fault-tolerant and energy-aware algorithms for workflows and real-time systems - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Thèse Année : 2020

Fault-tolerant and energy-aware algorithms for workflows and real-time systems

Algorithmes tolérants aux pannes et minimisant l'énergie pour les systèmes de tâches et les systèmes temps-réel

Résumé

This thesis is focused on the two major problems in the high performance computing context: resilience and energyconsumption.To satisfy the computing power required by modern scientific research, the number of computing units insupercomputers increases dramatically in the past years. This leads to more frequent errors than expected. Obviously,failure handling is critical for highly parallel applications that use a large number of components for a significant amountof time. Otherwise, one may spend infinite time re-executing. At the other side, power management is necessary due toboth monetary and environmental constraints. Especially because resilience often calls for redundancy in time and/or inspace , which in turn consumes extra energy. In addition, technologies that reduce energy consumption often havenegative effects on performance and resilience.In this context, we re-design scheduling algorithms to investigate trade-offs between performance, resilience and energyconsumption. The first part is focused around task graph scheduling and fail-stop errors. Which task should becheckpointed (redundancy in time) in order to minimize the total execution time? The objective is to design optimalsolutions for special classes of task graphs, and to provide general-purpose heuristics for arbitrary ones. Then in thesecond part of the thesis, we consider periodically independent task sets, which is the context of real-time scheduling,and silent errors. We investigate the number of replicas (redundancy in space) that are needed, and the interplay betweendeadlines, energy minimization and reliability.
Cette thèse se concentre sur deux problèmes majeurs dans le contexte du calcul haute performance:la résilience et la consommation d'énergie.Le nombre d'unités de calcul dans les superordinateurs a considérablement augmenté ces dernièresannées, entraînant une augmentation de la fréquence des pannes. Le recours à des mécanismes detolérance aux pannes est maintenant critique pour les applications utilisant un grand nombre decomposants pendant une période de temps significative. Il est par ailleurs nécessaire de minimiserla consommation énergétique pour des raisons budgétaires et environnementales. Ceci est d'autantplus important que la tolérance aux pannes nécessite une redondance en temps ou en espace quiinduit un surcoût énergétique. Par ailleurs, certaines technologies qui réduisant la consommationd'énergie ont des effets négatifs sur les performances et la résilience.Nous concevons des algorithmes d'ordonnancement pour étudier les compromis entre performance,résilience et consommation d'énergie. Dans une première partie, nous nous concentrons surl'ordonnancement des graphes de tâches sujets à des pannes. La question est alors de décider quelletâche sauvegarder afin de minimiser le temps d'exécution. Nous concevons des solutions optimalespour des classes de graphes et fournissons des heuristiques pour le cas général. Nous considéronsdans une deuxième partie l'ordonnancement de tâches périodiques indépendantes sujettes à deserreurs silencieuses dans un contexte temps-réel. Nous étudions combien de réplicats sontnécessaires et l'interaction entre dates butoir, fiabilité, et minimisation d'énergie.
Fichier principal
Vignette du fichier
HAN_Li_2020LYSEN013_These.pdf (1.77 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-02713064 , version 1 (01-06-2020)

Identifiants

  • HAL Id : tel-02713064 , version 1

Citer

Li Han. Fault-tolerant and energy-aware algorithms for workflows and real-time systems. Distributed, Parallel, and Cluster Computing [cs.DC]. Université de Lyon; East China normal university (Shanghai), 2020. English. ⟨NNT : 2020LYSEN013⟩. ⟨tel-02713064⟩
186 Consultations
291 Téléchargements

Partager

Gmail Facebook X LinkedIn More