A performance model to execute workflows on high-bandwidth memory architectures

This work presents a realistic performance model to execute scientific workflows on high-bandwidth memory architectures such as the Intel Knights Landing. We provide a detailed analysis of the execution time on such platforms, taking into account transfers from both fast and slow memory and their overlap with computations. We discuss several scheduling and mapping strategies: not only tasks must be assigned to computing resources, but also one has to decide which fraction of input and output data will reside in fast memory, and which will have to stay in slow memory. Extensive simulations allow us to assess the impact of the mapping strategies on performance. We also conduct actual experiments for a simple 1D Gauss-Seidel kernel, which assess the accuracy of the model and further demonstrate the importance of a tuned memory management. Altogether, our model and results lay the foundations for further studies and experiments on dual-memory systems.

Ce travail présente un modèle de performance réaliste pour exécuter des workflows scientifiques sur des architectures ayant des mémoires à bande passante élevée, comme par exemple Intel Knights Landing. Nous fournissons une analyse détaillée du temps d'exécution sur ces plates-formes, en tenant compte des transferts depuis deux mémoires (rapide et lente), et leur recouvrement avec les calculs. Nous introduisons plusieurs stratégiesd'ordonnancement et de placement mémoire: non seulement les tâches doivent être assignées aux ressources de calcul, mais il faut aussi décider quelle fraction des données d'entrée et de sortie va résider en mémoire rapide, alorsque le reste sera en mémoire lente. Des simulations approfondies nous permettentd'évaluer l'impact des stratégies de placement sur la performance. Nous menons également des expériences réelles pour un noyau de Gauss-Seidel 1D simple, afin d'évaluer la précision du modèle. Nous démontrons ainsi l'importance d'une gestion fine de la mémoire sur les systèmes avec double mémoire.

Mots clés

manycore memory hierarchy mapping high-bandwidth memory performance model Workflow task graph scheduling

hiérarchie mémoire mémoire haute performance architecture massivement parallèle modèle de performance graphe de tâches ordonnancement placement de données

Domaines

Calcul parallèle, distribué et partagé [cs.DC]

Fichier principal

RR-9165.pdf (1.09 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Equipe Roma : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-01767888

Soumis le : mardi 17 avril 2018-16:22:47

Dernière modification le : jeudi 11 mai 2023-11:56:10

Dates et versions

hal-01767888 , version 1 (17-04-2018)

Identifiants

HAL Id : hal-01767888 , version 1

Citer

Anne Benoit, Swann Perarnau, Loïc Pottier, Yves Robert. A performance model to execute workflows on high-bandwidth memory architectures. [Research Report] RR-9165, ENS Lyon; Inria Grenoble Rhône-Alpes; University of Tennessee Knoxville; Georgia Institute of Technology; Argonne National Laboratory. 2018, pp.1-28. ⟨hal-01767888⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

ENS-LYON CNRS INRIA UNIV-LYON1 INRIA-RRRT INRIA2 LARA UDL

193 Consultations

145 Téléchargements