Fully-abstracted affinity optimization for task-based models

Jens Gustedt 1 Emmanuel Jeannot 2, 3 Farouk Mansouri 3
1 CAMUS - Compilation pour les Architectures MUlti-coeurS
Inria Nancy - Grand Est, ICube - Laboratoire des sciences de l'ingénieur, de l'informatique et de l'imagerie
3 TADAAM - Topology-Aware System-Scale Data Management for High-Performance Computing
LaBRI - Laboratoire Bordelais de Recherche en Informatique, Inria Bordeaux - Sud-Ouest
Résumé : Modeles et environnements à base de tâches sont très populaires dans la communauté du HPC. Ils aident à implanter des applications à un niveau d'abstraction élevé en permettant néanmoins différents types d'optimisation. Une cible d'optimisation importante est l'affinité, qui consiste à lier le comportement de l'application (processus légers, communication, données) à la topologie de l'architecture (coeurs, caches, mémoire). Réaliser un placement bien adapté des processus est un levier effectif pour atteindre performance et passage à l'échelle, en particulier sur des machines NUMA-SMP. Néanmoins, ce type d'optimisation est difficile : les architectures deviennent de plus en plus complexes et le comportement des applications change selon les implantations et les paramètres d'entrées, p. ex. la taille du problème ou le nombre de processus. Souvent les environnements d'exécution gèrent mal ce type d'optimisation par eux-mêmes et laissent beaucoup de réglages minutieux à l'utilisateur. Avec ce travail nous proposons un module pour controler l'affinité qui est complètement automatique, abstrait et portable. Il produit et implante une stratégie d'affinité optimisée qui combine les connaissances sur les caractéristiques de l'application et sur la topologie de l'architecture. Implanté comme module interne de notre environnement d'exécution ORWL, notre approche a été utilisée pour améliorer la performance et le passage à l'échelle de plusieurs applications ORWL non-modifiées : multiplication de matrices, un stencil 2D (Livermore Kernel 23), et une application réelle de poursuite vidéo. Sur deux machines SMP de SGI avec des caractéristiques matérielles relativement différents nos tests montrent des améliorations spectaculaires pour ces applications non-modiffiées, dû à une baisse très notable des défauts de caches. Une comparaison avec des implantations de référence utilisant OpenMP confirme ce gain de performance de presque un ordre de grandeur
Type de document :
Rapport
[Research Report] RR-8993, INRIA Nancy. 2016
Liste complète des métadonnées

Littérature citée [16 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01409101
Contributeur : Jens Gustedt <>
Soumis le : lundi 5 décembre 2016 - 16:33:04
Dernière modification le : samedi 27 octobre 2018 - 01:23:51
Document(s) archivé(s) le : jeudi 23 mars 2017 - 00:40:40

Fichier

RR-8993.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01409101, version 1

Citation

Jens Gustedt, Emmanuel Jeannot, Farouk Mansouri. Fully-abstracted affinity optimization for task-based models. [Research Report] RR-8993, INRIA Nancy. 2016. 〈hal-01409101〉

Partager

Métriques

Consultations de la notice

288

Téléchargements de fichiers

137