Optimization and parallelization of Emedge3D on shared memory architecture

Matthieu Kuhn; Guillaume Latu; Stéphane Genaud; Nicolas Crouseilles

doi:10.1109/SYNASC2013.72

Communication Dans Un Congrès Année : 2013

Optimization and parallelization of Emedge3D on shared memory architecture

(1) , (2) , (1) , (3, 4)

1
2
3
4

Matthieu Kuhn

Fonction : Auteur correspondant
PersonId : 6314
IdHAL : mkuhn
IdRef : 191225517

Connectez-vous pour contacter l'auteur

Laboratoire des sciences de l'ingénieur, de l'informatique et de l'imagerie

Guillaume Latu

Fonction : Auteur
PersonId : 1275143
IdHAL : guillaume-latu
ORCID : 0009-0001-7274-1305

Institut de Recherche sur la Fusion par confinement Magnétique

Stéphane Genaud

Fonction : Auteur

Laboratoire des sciences de l'ingénieur, de l'informatique et de l'imagerie

Nicolas Crouseilles

Fonction : Auteur
PersonId : 912465

Invariant Preserving SOlvers

Institut de Recherche Mathématique de Rennes

Résumé

This report presents a study of techniques used to speedup a scientific simulation code. The techniques include sequential optimizations as well as the parallelization with OpenMP. This work is carried out on two different multicore shared memory architectures, namely a cutting edge 8x8 core CPU and a more common 2x6 core board. Our target application is representative of many memory bound codes, and the techniques we present show how to overcome the burden of the memory bandwidth limit, which is quickly reached on multi-core or many-core with shared memory architectures. To achieve efficient speedups, strategies are applied to lower the computation costs, and to maximize the use of processors caches. Optimizations are: minimizing memory accesses, simplifying and reordering computations, and tiling loops. On 12 cores processor Intel X5675, aggregation of these optimizations results in an execution time 21.6 faster, compared to the original version on one core.

Ce rapport présente des stratégies pour la réduction du temps d'exécution d'un code de simulation numérique. Ces stratégies interviennent autant au niveau optimisation séquentielle qu'au niveau de la parallélisation OpenMP. Cette étude a été menée sur deux architectures à mémoire partagée : une carte à la pointe de la technologie comprenant 8x8 coeurs et une autre plus commune intégrant un processeur de 2x6 coeurs. Comme pour beaucoup d'applications du même type, les performances de la parallélisation du code numérique cible sont limitées par la bande passante mémoire. Les techniques que nous présentons dans ce document montrent comment contourner cette limitation. Afin d'obtenir des accélérations efficaces, différentes stratégies sont mises en oeuvre au niveau des calculs, mais aussi au niveau de l'accès aux données. Les optimisations en question sont la minimisation du nombre d'accès à la mémoire, la simplification et le ré-ordonnancement des calculs et le tiling pour maximiser l'utilisation des caches mémoire. Sur le processeur Intel X5675 (12 coeurs), l'accumulation de ces optimisations et la parallélisation permet d'obtenir un code 21.6 fois plus rapide par rapport à la version initiale sur un seul coeur.

Mots clés

memory band- width bound scientific computing parallelization shared memory optimization

Domaines

Calcul parallèle, distribué et partagé [cs.DC] Physique Numérique [physics.comp-ph]

Fichier principal

RR-8336.pdf (474.69 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Nicolas Crouseilles : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-00848869

Soumis le : lundi 29 juillet 2013-14:18:15

Dernière modification le : samedi 27 avril 2024-03:10:43

Archivage à long terme le : mercredi 30 octobre 2013-04:12:37

Dates et versions

hal-00848869 , version 1 (29-07-2013)

Identifiants

HAL Id : hal-00848869 , version 1
DOI : 10.1109/SYNASC2013.72

Citer

Matthieu Kuhn, Guillaume Latu, Stéphane Genaud, Nicolas Crouseilles. Optimization and parallelization of Emedge3D on shared memory architecture. IEEE, Sep 2013, timisoara, Romania. pp.503-510, ⟨10.1109/SYNASC2013.72⟩. ⟨hal-00848869⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CEA UNIV-RENNES1 IRMAR UR2-HB CNRS INRIA INSA-RENNES ENGEES INSMI INSA-STRASBOURG UNAM IRMAR-AN DSM-IRFM INRIA2 INC-CNRS UR1-MATH-STIC UNIV-RENNES2 CEA-DRF SITE-ALSACE UNIV-RENNES CEA-CAD INSA-GROUPE ANR UR1-MATH-NUM IRMAR-ANUM

347 Consultations

392 Téléchargements

Optimization and parallelization of Emedge3D on shared memory architecture

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager