Distributed-memory multi-GPU block-sparse tensor contraction for electronic structure (revised version) - Archive ouverte HAL Access content directly
Reports (Research Report) Year : 2020

Distributed-memory multi-GPU block-sparse tensor contraction for electronic structure (revised version)

(1) , (1, 2, 3) , (1) , (4, 5) , (6) , (7) , (1)
1
2
3
4
5
6
7

Abstract

Many domains of scientific simulation (chemistry, condensed matter physics, data science) increasingly eschew dense tensors for block-sparse tensors, sometimes with additional structure (recursive hierarchy, rank sparsity, etc.). Distributed-memory parallel computation with block-sparse tensorial data is paramount to minimize the time-tosolution (e.g., to study dynamical problems or for real-time analysis) and to accommodate problems of realistic size that are too large to fit into the host/device memory of a single node equipped with accelerators. Unfortunately, computation with such irregular data structures is a poor match to the dominant imperative, bulk-synchronous parallel programming model. In this paper, we focus on the critical element of block-sparse tensor algebra, namely binary tensor contraction, and report on an efficient and scalable implementation using the task-focused PaRSEC runtime. High performance of the block-sparse tensor contraction on the Summit supercomputer is demonstrated for synthetic data as well as for real data involved in electronic structure simulations of unprecedented size.
Les tenseurs creux par blocs (block-sparse) sont présents dans de nombreux domaines scientifiques. Ce rapport étudie la parallélisation d’un noyau de contraction essentiel pour la manipulation de tels tenseurs, qui peut se matérialiser sous forme d’un produit de matrices C ← C + AB, où les trois matrices ont une structure creuse par blocs, où les tuiles de A et B sont de tailles hétérogènes, et où B est carrée de taille n, alors que A et C sont rectangulaires de taille m × n avec m << n. Nous proposons une implémentation sur la plate-forme Summit à mémoire distribuée, où chaque nœud est équipé de plusieurs GPUs, au sein de l’environnement de tâches PaRSEC. Nous obtenons de bonnes performances pour des problèmes de taille inégalées à ce jour.
Fichier principal
Vignette du fichier
rr9365.pdf (1.25 Mo) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

hal-02970659 , version 1 (18-10-2020)

Identifiers

  • HAL Id : hal-02970659 , version 1

Cite

Thomas Herault, Yves Robert, George Bosilca, Robert J Harrison, Cannada A Lewis, et al.. Distributed-memory multi-GPU block-sparse tensor contraction for electronic structure (revised version). [Research Report] RR-9365, Inria - Research Centre Grenoble – Rhône-Alpes. 2020, pp.34. ⟨hal-02970659⟩
62 View
412 Download

Share

Gmail Facebook Twitter LinkedIn More