Reservation and Checkpointing Strategies for Stochastic Jobs (Extended Version) - Archive ouverte HAL Access content directly
Reports (Research Report) Year : 2019

Reservation and Checkpointing Strategies for Stochastic Jobs (Extended Version)

Stratégies de réservation avec points de sauvegarde pour l’ordonnancement de tâches stochastiques

(1) , (2) , (2) , (2) , (1) , (3) , (1)
1
2
3

Abstract

In this work, we are interested in scheduling and checkpointing stochastic jobs ona reservation-based platform. We assume that jobs can be interrupted at any time to take acheckpoint, and that job execution times follow a known probability distribution. The user has todetermine a sequence of fixed-length reservation requests, and to decide whether to checkpoint thestate of the execution, or not, at the end of each request. The execution of the job is successful onlywhen it terminates within a request, otherwise it must be resubmitted, using the next request in thereservation sequence, and restarting execution from the last checkpointed state. The cost of eachreservation depends on both its duration and on the actual utilization of the platform during thatrequest, which includes a restart if some previous reservation was terminated with a checkpoint, andpossibly a checkpoint at the end of the current request. The cost of a job is then the cumulatedcost of all the reservations that were needed until its completion. Overall, the objective is tofind a reservation sequence that minimizes the total expected cost to execute a job. We providean optimal strategy for discrete probability distributions of job execution times, and we designfully polynomial-time approximation strategies for continuous distributions with bounded support.We experimentally evaluate these strategies for jobs following a wide range of usual probabilitydistributions, as well as one distribution obtained from traces of a neuroscience application. Wecompare our strategies with standard approaches that use periodic-length reservations (the nextreservation is longer than the previous one by a constant amount of time) and simple checkpointingstrategies (either checkpoint all reservations, or none).
Dans ce rapport, nous nous intéressons à l’ordonnancement de tâches stochastiques exécutées sur une plateforme à réservations, où l’utilisateur réalise des requêtes successives de temps de calcul. Le temps d’exécution des tâches considérées n’est pas connu à l’avance. Ce temps est représenté par une loi de probabilité, décrite sous la forme d’une densité de probabilité. Nous nous intéressons à ordonnancer une instance d’une telle tâche, c’est à dire que nous ne connaissons pas son temps d’exécution qui reste constant tout au long de l’ordonnancement. Dans ce cas, le coût de l’ordonnancement dépend à la fois de la durée des requêtes et du temps d’exécution de la tâche considérée. Nous supposons de plus que la tâche peut être interrompue à tout instant (tâche divisible) pour un point de sauvegarde. Nous avons donc la possibilité de prendre un point de sauvegarde à la fin de certaines réservations bien choisies. L’avantage est de pouvoir repartir de l’état sauvegardé à la prochaine réservation au lieu de repartir du début, si la tâche ne termine pas pendant la réservation courante. Le prix à payer est le temps de sauvegarde, et de redémarrage. L’objectif de ce travail est de déterminer une stratégie de réservation optimale qui minimise le coût total de l’ordonnancement. Une stratégie de réservations est une séquence de requêtes croissantes, qui sont payées les unes à la suite des autres en ordre croissant jusqu’à complétion de la tâche. Pour chaque réservation, nous indiquons si un point de sauvegarde doit être pris ou non. Nous décrivons une telle solution optimale pour des distributions de probabilité discrètes, et nous donnons un schéma d’approximation polynomial pour les distributions continues à support compact. Nous comparons expérimentalement ces stratégies aux stratégies usuelles qui incrémentent la longueur de chaque réservation par une valeur constante, et qui décident de sauvegarder soit toutes les réservations, soit aucune. Nous utilisons un grand nombre de lois de probabilité usuelles (i.e. Uniforme, Exponentielle, Log-Normale, Weibull, Beta etc), ainsi qu’une distribution basée sur l’interpolation de traces d’applications de neurosciences exécutées sur une plateforme HPC.
Fichier principal
Vignette du fichier
research_report_hal_v2.pdf (1.43 Mo) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

hal-02328013 , version 1 (23-10-2019)
hal-02328013 , version 2 (10-01-2020)

Identifiers

  • HAL Id : hal-02328013 , version 2

Cite

Ana Gainaru, Brice Goglin, Valentin Honoré, Guillaume Pallez, Padma Raghavan, et al.. Reservation and Checkpointing Strategies for Stochastic Jobs (Extended Version). [Research Report] RR-9294, Inria & Labri, Univ. Bordeaux; Department of EECS, Vanderbilt University, Nashville, TN, USA; Laboratoire LIP, ENS Lyon & University of Tennessee Knoxville, Lyon, France. 2019. ⟨hal-02328013v2⟩
131 View
124 Download

Share

Gmail Facebook Twitter LinkedIn More