Distributed-memory multi-GPU block-sparse tensor contraction for electronic structure

Thomas Herault; Yves Robert; George Bosilca; Robert Harrison; Cannada A Lewis; Edward F Valeev

Rapport (Rapport De Recherche) Année : 2020

Distributed-memory multi-GPU block-sparse tensor contraction for electronic structure

Contraction de tenseur creux par blocs sur plates-formes distribuées équipées de nœuds multi-GPUs

(1) , (2, 1, 3) , (1) , (4, 5) , (6) , (7)

1
2
3
4
5
6
7

Thomas Herault

Fonction : Auteur
PersonId : 833735

Innovative Computing Laboratory [Knoxville]

Yves Robert

Fonction : Auteur
PersonId : 739318
IdHAL : yves-robert
ORCID : 0000-0003-2361-055X
IdRef : 029813611

Optimisation des ressources : modèles, algorithmes et ordonnancement

Innovative Computing Laboratory [Knoxville]

Laboratoire de l'Informatique du Parallélisme

George Bosilca

Fonction : Auteur
PersonId : 863939

Innovative Computing Laboratory [Knoxville]

Robert Harrison

Fonction : Auteur

Stony Brook University [SUNY]

Brookhaven National Laboratory [Upton, NY]

Cannada A Lewis

Fonction : Auteur

Sandia National Laboratories [Livermore]

Edward F Valeev

Fonction : Auteur

Virginia Polytechnic Institute and State University [Blacksburg]

Résumé

Many domains of scientific simulation (chemistry, condensed matter physics,data science) increasingly eschew dense tensors for block-sparse tensors, sometimes with additional structure (recursive hierarchy, rank sparsity, etc.). Distributed-memory parallel computation with block-sparse tensorial data is paramount to minimize the time-to-solution (e.g.,to study dynamical problems or for real-time analysis) and to accommodate problems of realistic size that are too large to fit into the host/device memory of a single node equipped with accelerators. Unfortunately, computation with such irregular data structures is a poor match to the dominant imperative, bulk-synchronous parallel programming model. In this paper, we focus on the critical element of block-sparse tensoralgebra, namely binary tensor contraction, and report on an efficient and scalable implementation using the task-focused PaRSEC runtime. High performance of the block-sparse tensor contraction on the Summit supercomputer is demonstrated for synthetic data aswell as for real data involved in electronic structure simulations of unprecedented size.

Les tenseurs creux par blocs (block-sparse) sont présents dans de nombreux domaines scienfiifiques. Ce rapport étudie la parallélisation d’un noyau de contraction essentiel pour la manipulation de tels tenseurs, qui peut se matérialiser sous forme d’un produit de matrices C←C+AB, où les trois matrices ont une structure creuse par blocs, où les tuiles de A et B sont de tailles hétérogènes, et où Best carrée de taille n, alors que A et C sont rectangulaires de taille m×n avec m << n. Nous proposons une implémentation sur la plate-forme Summit à mémoire distribuée, où chaque nœud est équipé de plusieurs GPUs, au sein de l’environnement de tâches PaRSEC. Nous obtenons de bonnes performances pour des problèmes de taille inégalées à ce jour.

Mots clés

Electronic str... tensor contract... block-sparse ma... distributed-mem... multi-GPU node PaRSEC

Produit de matrices Mémoire distribuée Noeud multi-GPU PaRSEC Contraction de tenseur

Domaines

Informatique [cs]

Fichier principal

rr9353.pdf (1.27 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Equipe Roma : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-02872813

Soumis le : mercredi 17 juin 2020-20:57:50

Dernière modification le : jeudi 20 juillet 2023-10:26:05

Dates et versions

hal-02872813 , version 1 (17-06-2020)

Identifiants

HAL Id : hal-02872813 , version 1

Citer

Thomas Herault, Yves Robert, George Bosilca, Robert Harrison, Cannada A Lewis, et al.. Distributed-memory multi-GPU block-sparse tensor contraction for electronic structure. [Research Report] RR-9353, Inria - Research Centre Grenoble – Rhône-Alpes. 2020. ⟨hal-02872813⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

ENS-LYON CNRS INRIA UNIV-LYON1 INRIA-RRRT INRIA2 LARA UDL

158 Consultations

251 Téléchargements

Distributed-memory multi-GPU block-sparse tensor contraction for electronic structure

Contraction de tenseur creux par blocs sur plates-formes distribuées équipées de nœuds multi-GPUs

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager