Fully Empirical Autotuned QR Factorization For Multicore Architectures - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2011

Fully Empirical Autotuned QR Factorization For Multicore Architectures

Résumé

Tuning numerical libraries has become more difficult over time, as systems get more sophisticated. In particular, modern multicore machines make the behaviour of algorithms hard to forecast and model. In this paper, we tackle the issue of tuning a dense QR factorization on multicore architectures. We show that it is hard to rely on a model, which motivates us to design a fully empirical approach. We exhibit few strong empirical properties that enable us to efficiently prune the search space. Our method is automatic, fast and reliable. The tuning process is indeed fully performed at install time in less than one and ten minutes on five out of seven platforms. We achieve an average performance varying from 97% to 100% of the optimum performance depending on the platform. This work is a basis for autotuning the PLASMA library and enabling easy performance portability across hardware systems.
L'optimisation de librairies numériques est devenue de plus en plus difficile, en même temps que les systèmes se sont complexifiées. En particulier, les machines multi-coeur modernes rendent le comportement des algorithmes difficile à prévoir et modéliser. Dans ce papier, nous étudions le problème de l'optimisation d'une factorisation QR dense sur des architectures multi-coeur. Nous montrons qu'il est difficile d'utiliser un modèle précis, ce qui nous motive pour concevoir une méthode entièrement empirique. Nous mettons en avant quelques propriétés empiriques vérifiées sur un large ensemble de plate-formes. Ces propriétés nous permettent de réduire l'espace de recherche. Notre méthode est automatique, rapide et fiable. Le processus d'optimisation est en effet complètement effectué lors de l'installation de la librairie en moins d'une heure et dix minutes pour cinq des sept plate-formes étudiées. Nous atteigons une performance moyenne variant de 97% à 100% de la performance optimale selon les plate-formes. Ce travail est une base pour l'optimisation automatique de la librairie PLASMA et permettre ainsi la portabilité de sa performance.
Fichier principal
Vignette du fichier
rr.pdf (498.02 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

inria-00569514 , version 1 (25-02-2011)

Identifiants

  • HAL Id : inria-00569514 , version 1
  • ARXIV : 1102.5328

Citer

Emmanuel Agullo, Jack J. Dongarra, Rajib Nath, Stanimire Tomov. Fully Empirical Autotuned QR Factorization For Multicore Architectures. [Research Report] RR-7526, INRIA. 2011, pp.22. ⟨inria-00569514⟩
172 Consultations
495 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More