Achieving High Performance on Supercomputers with a Sequential Task-based Programming Model

The emergence of accelerators as standard computing resources on supercomputers and the subsequent architectural complexity increase revived the need for high-level parallel programming paradigms. Sequential task-based programming model has been shown to efficiently meet this challenge on a single multicore node possibly enhanced with accelerators, which motivated its support in the OpenMP 4.0 standard. In this paper, we show that this paradigm can also be employed to achieve high performance on modern supercomputers composed of multiple such nodes, with extremely limited changes in the user code. To prove this claim, we have extended the StarPU runtime system with an advanced inter-node data management layer that supports this model by posting communications automatically. We illustrate our discussion with the task- based tile Cholesky algorithm that we implemented on top of this new runtime system layer. We show that it allows for very high productivity while achieving a performance competitive with both the pure Message Passing Interface (MPI)-based ScaLAPACK Cholesky reference implemen- tation and the DPLASMA Cholesky code, which implements another (non sequential) task-based programming paradigm.

L’émergence d’accélérateurs comme ressources de calcul standard sur les supercalculateurs et la complexification associée des architectures ressuscite le besoin de paradigmes de programmation de haut niveau. La programmation par tâches séquentielle a montré qu’elle pouvait efficacement répondre à ce besoin sur un seul nœud de calcul multicœur possiblement dotée d’accélérateurs, ce qui a motivé son intégration dans le standard OpenMP 4.0. Dans ce papier, nous montrons que ce paradigme peut également être utilisé pour obtenir de hautes performances sur les supercalculateurs modernes composés de plusieurs de ces nœuds de calcul, tout en limitant à au maximum les changements dans le code utilisateur. Afin de prouver cette affirmation, nous avons ajouté au support d’exécution StarPU une couche avancée de gestion des données inter-nœuds qui supporte ce modèle en émettant automatiquement les communications. Nous illustrons notre discussion avec une factorisation de Cholesky tuilée en tâches que nous avons implémentée sur cette nouvelle couche de support exécutif. Nous montrons que cette méthode permet une grande productivité tout en permettant d’obtenir des performances compétitives tant avec l’implémentation de référence ScaLAPACK de Cholesky, qui est basée purement sur l’Interface de Passage de Message (MPI), qu’avec le code Cholesky de DPLASMA, qui implémente un autre modèle de programmation par tâches (non séquentiel).

Mots clés

runtime system sequential task flow OpenMP depend clause heterogeneous computing distributed computing multicore Cholesky factorization

support d’exécution flot de tâches séquentiel clause OpenMP depend calcul hétérogène calcul distribué multi-cœur GPU factorisation de Cholesky

Domaines

Informatique [cs] Calcul parallèle, distribué et partagé [cs.DC]

Fichier principal

RR-8927.pdf (737.83 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Marc Sergent : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-01332774

Soumis le : jeudi 16 juin 2016-14:43:01

Dernière modification le : mercredi 3 avril 2024-11:24:09

Dates et versions

hal-01332774 , version 1 (16-06-2016)

Identifiants

HAL Id : hal-01332774 , version 1

Citer

Emmanuel Agullo, Olivier Aumage, Mathieu Faverge, Nathalie Furmento, Florent Pruvost, et al.. Achieving High Performance on Supercomputers with a Sequential Task-based Programming Model. [Research Report] RR-8927, Inria Bordeaux Sud-Ouest; Bordeaux INP; CNRS; Université de Bordeaux; CEA. 2016, pp.27. ⟨hal-01332774⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CEA UNIV-RENNES1 CNRS INRIA IRISA INRIA-RRRT DAM INRIA2 LARA UR1-MATH-STIC UR1-UFR-ISTIC PLAFRIM UNIV-RENNES ANR UR1-MATH-NUM

506 Consultations

556 Téléchargements