Spherical harmonic transform on heterogeneous architectures using hybrid programming - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2011

Spherical harmonic transform on heterogeneous architectures using hybrid programming

Résumé

Spherical Harmonic Transforms (SHT) are at the heart of many scientific and practical ap- plications ranging from climate modeling to cosmological observations. In many of these areas a new wave of exciting, cutting-edge science goals have been recently proposed calling for simulations and analyses of actual experimental or observational data at very high resolutions, accompanied by producing or processing unprecedented volumes of the data. Both these aspects pose formidable challenge for the currently existing implementations of the transforms. This paper describes a multi CPU-GPUs implementation of an inverse SHT, based on hybrid program- ming combining MPI and CUDA, and discusses its tests as motivated by these forthcoming applications. We present performance comparisons of the multi GPU version and a hybrid, MPI/OpenMP version of the same transform. We find that one NVIDIA Tesla S1070 can accelerate overall execution time of the SHT by as much as 3 times with respect to the MPI/OpenMP version executed on one quad-core processor (Intel Nehalem 2.93 GHz) and, owing to very good scalability of both versions, 128 Tesla cards perform as good as 256 twelve-core processor (AMD Opteron 2.1 GHz).
Les transformations en harmoniques sphériques (SHT) sont au cœur de nombreuses applications scientifiques et pratiques allant de la modélisation du climat aux observations cosmologiques. Ces domaines nécessitent des simulations et des analyses de données expérimentales engendrant des larges volumes de données. Ceci représente un défi important pour les implémentations actuelles des transformations en harmoniques sphériques. Ce papier décrit la mise en œuvre multi CPU-GPU d'une SHT inverse, basée sur une programmation hybride, combinant MPI et CUDA. Nous comparons les performances de la version multi GPU par rapport à une version hybride MPI / OpenMP de la même transformation. Nous constatons qu'une NVIDIA Tesla S1070 peut exécuter la SHT 3 fois plus rapidement que la version MPI / OpenMP exécutée sur un processeur quad-core (Intel Nehalem cadencé à 2,93 GHz) . De plus, en raison d'un très bon passage à l'échelle des deux versions, 128 cartes Tesla donnent d'aussi bonnes performances que 256 processeurs à 12 coeurs (AMD Op te ron 2,1 GHz).
Fichier principal
Vignette du fichier
RR-7635.pdf (582.35 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

inria-00597576 , version 1 (01-06-2011)
inria-00597576 , version 2 (30-05-2012)

Identifiants

  • HAL Id : inria-00597576 , version 1
  • ARXIV : 1106.0159

Citer

Mikolaj Szydlarski, Pierre Esterie, Joel Falcou, Laura Grigori, R. Stompor. Spherical harmonic transform on heterogeneous architectures using hybrid programming. [Research Report] RR-7635, 2011, pp.17. ⟨inria-00597576v1⟩
775 Consultations
479 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More