Task-based fast multipole method for clusters of multicore processors

Emmanuel Agullo; Bérenger Bramas; Olivier Coulaud; Martin Khannouz; Luka Stanisic

Rapport (Rapport De Recherche) Année : 2017

Task-based fast multipole method for clusters of multicore processors

Méthode des multipôles rapide à base de tâches pour des clusters de processeurs multicoeurs

(1) , (2) , (1) , (1) , (3)

1
2
3

Emmanuel Agullo

Fonction : Auteur
PersonId : 10278
IdHAL : emmanuel-agullo
ORCID : 0000-0003-0655-6934
IdRef : 150042116

High-End Parallel Algorithms for Challenging Numerical Simulations

Bérenger Bramas

Fonction : Auteur
PersonId : 739336
IdHAL : berenger-bramas
ORCID : 0000-0003-0281-9709
IdRef : 192518178

Max Planck Computing and Data Facility [Garching]

Olivier Coulaud

Fonction : Auteur
PersonId : 183
IdHAL : coulaud
ORCID : 0000-0003-2924-284X
IdRef : 033627401

High-End Parallel Algorithms for Challenging Numerical Simulations

Martin Khannouz

Fonction : Auteur

High-End Parallel Algorithms for Challenging Numerical Simulations

Luka Stanisic

Fonction : Auteur

STatic Optimizations, Runtime Methods

Résumé

Most high-performance, scientific libraries have adopted hybrid parallelization schemes - such as the popular MPI+OpenMP hybridization - to benefit from the capacities of modern distributed-memory machines. While these approaches have shown to achieve high performance, they require a lot of effort to design and maintain sophisticated synchronization/communication strategies. On the other hand, task-based programming paradigms aim at delegating this burden to a runtime system for maximizing productivity. In this article, we assess the potential of task-based fast multipole methods (FMM) on clusters of multicore processors. We propose both a hybrid MPI+task FMM parallelization and a pure task-based parallelization where the MPI communications are implicitly handled by the runtime system. The latter approach yields a very compact code following a sequential task-based programming model. We show that task-based approaches can compete with a hybrid MPI+OpenMP highly optimized code and that furthermore the compact task-based scheme fully matches the performance of the sophisticated, hybrid MPI+task version, ensuring performance while maximizing productivity. We illustrate our discussion with the ScalFMM FMM library and the StarPU runtime system.

La plupart des bibliothèques scientifiques très performantes ont adopté des parallélisations hybrides - comme l’approche MPI+OpenMP - pour profiter des capacités des machines modernes à mémoire distribuée. Ces approches permettent d’obtenir de très hautes performances, mais elles nécessitent beaucoup d’efforts pour concevoir et pour maintenir des stratégies de synchronisation/communication sophistiquées. D’un autre côté, les paradigmes de programmation à base de tâches visent à déléguer ce fardeau à un moteur d'exécution pour maximiser la productivité. Dans cet article, nous évaluons le potentiel de la méthode des multipôles rapide (FMM) à base de tâches sur les clusters de processeurs multic\oe{}urs. Nous proposons deux types de parallélisation, une première approche hybride (MPI+Tâche) à base de tâches et d’appels à MPI pour gérer explicitement les communications et la deuxième uniquement à base de tâches où les communications MPI sont implicitement postées par le moteur d'exécution. Cette dernière approche conduit à un code très compact qui suit le modèle de programmation séquentiel à base de tâches. Nous montrons que cette approche rivalise avec le code hybride MPI+OpenMP fortement optimisé et qu'en outre le code compact atteint les performances de la version hybride MPI+Tâche, assurant une très haute performance tout en maximisant la productivité. Nous illustrons notre propos avec la bibliothèque FMM ScalFMM et le moteur d'exécution StarPU.

Mots clés

multicore processor high performance computing (HPC) fast multipole method hybrid parallelization runtime system task-based programming

Calcul haute performance méthode multipôles rapide FMM cluster architecture multicœur moteur d’exécution parallélisation hybride programmation à base de tâches MPI OpenMP

Domaines

Calcul parallèle, distribué et partagé [cs.DC]

Fichier principal

report-8970.pdf (1.06 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Olivier Coulaud : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-01387482

Soumis le : jeudi 23 mars 2017-09:03:21

Dernière modification le : mercredi 20 mars 2024-17:52:16

Dates et versions

hal-01387482 , version 1 (27-10-2016)

hal-01387482 , version 2 (02-11-2016)

hal-01387482 , version 3 (09-11-2016)

hal-01387482 , version 4 (23-03-2017)

Identifiants

HAL Id : hal-01387482 , version 4

Citer

Emmanuel Agullo, Bérenger Bramas, Olivier Coulaud, Martin Khannouz, Luka Stanisic. Task-based fast multipole method for clusters of multicore processors. [Research Report] RR-8970, Inria Bordeaux Sud-Ouest. 2017, pp.15. ⟨hal-01387482v4⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA INRIA-RRRT INRIA2 LARA PLAFRIM

623 Consultations

560 Téléchargements

Task-based fast multipole method for clusters of multicore processors

Méthode des multipôles rapide à base de tâches pour des clusters de processeurs multicoeurs

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager