A Performance Model for GPU-Accelerated FDTD Applications

Baumeister, Paul F.; Hater, Thorsten; Kraus, Jiří; Pleiter, D.; Wahl, Pierre

doi:10.1109/hipc.2015.24

Cited by 11 publications

(7 citation statements)

References 14 publications

Supporting

Mentioning

Contrasting

Order By: Relevance

“…The D fields do not exchange between GPUs. This data-exchange approach was applied in [3] and [8], and in the multi-CPU-core FDTD [16]. In MATLAB, this exchange can be defined by a data movement direction within the first SPMD statement.…”

Section: Computational Model and Gpu-based Fdtd Methodsmentioning

confidence: 99%

“…There are two major approaches to programming multi-GPU based parallel FD-FDTD: open computing language (OpenCL) [3,4] and compute unified device architecture (CUDA) [5][6][7][8]. OpenCL is a framework and programming language that executes across heterogeneous platforms consisting of CPUs, GPUs, or other processors.…”

Section: Introductionmentioning

confidence: 99%

“…Different types of GPUs were used to compare their real computability. Researchers from Belgium used CUDA on up to four GPUs for a 3-D FDTD application with multi-pole dispersion for plasma [7,8], and found an almost linear speedup with respect to the number of GPUs.…”

Section: Introductionmentioning

confidence: 99%

See 2 more Smart Citations

Multiple-Gpu-Based Frequency-Dependent Finite-Difference Time Domain Formulation Using Matlab Parallel Computing Toolbox

Shao¹,

McCollough²

2017

PIER M

View full text Add to dashboard Cite

Abstract-A parallel frequency-dependent, finite-difference time domain method is used to simulate electromagnetic waves propagating in dispersive media. The method is accomplished by using a singleprogram-multiple-data mode and tested on up to eight NVidia Tesla GPUs. The speedup using different numbers of GPUs is compared and presented in tables and graphics. The results provide recommendations for partitioning data from a 3-D computational model to achieve the best GPU performance.

show abstract

Section: Computational Model and Gpu-based Fdtd Methodsmentioning

confidence: 99%

Section: Introductionmentioning

confidence: 99%

See 1 more Smart Citation

Multiple-Gpu-Based Frequency-Dependent Finite-Difference Time Domain Formulation Using Matlab Parallel Computing Toolbox

Shao¹,

McCollough²

2017

PIER M

View full text Add to dashboard Cite

show abstract

“…For such networks, a viable theory for locating emergent behaviors in the parameter space (or gene's space) called local activity theory [5] was proposed and successfully tested [4]. Fluid dynamics, sound propagation, and many other physical phenomena can be modeled in FDTD frameworks such as cellular automata and Lattice Boltzmann Machines [6][7] [8]. Such models need convenient informatic implementations (modelling and simulation frameworks = MSF), and in recent years various commercial or noncommercial solutions were offered, most struggling to offer GPU support and high performance (short simulation times for wide arrays of cells).…”

Section: Introductionmentioning

confidence: 99%

A Python Framework for Fast Modelling and Simulation of Cellular Nonlinear Networks and other Finite-difference Time-domain Systems

Dogaru

2021

2021 23rd International Conference on Control Systems and Computer Science (CSCS)

View full text Add to dashboard Cite

This paper introduces and evaluates a freely available cellular nonlinear network simulator optimized for the effective use of GPUs, to achieve fast modelling and simulations. Its relevance is demonstrated for several applications in nonlinear complex dynamical systems, such as slow-growth phenomena as well as for various image processing applications such as edge detection. The simulator is designed as a Jupyter notebook written in Python and functionally tested and optimized to run on the freely available cloud platform Google Collaboratory. Although the simulator, in its actual form, is designed to model the FitzHugh Nagumo Reaction-Diffusion cellular nonlinear network, it can be easily adapted for any other type of finite-difference time-domain model. Four implementation versions are considered, namely using the PyCUDA, NUMBA respectively CUPY libraries (all three supporting GPU computations) as well as a NUMPY-based implementation to be used when GPU is not available. The specificities and performances for each of the four implementations are analyzed concluding that the PyCUDA implementation ensures a very good performance being capable to run up to 14000 Mega cells per seconds (each cell referring to the basic nonlinear dynamic system composing the cellular nonlinear network).

show abstract

“…However, this inspection suggests that kernels are bound on the DRAM latency as the requested transactions cannot fully utilize the DRAM resource. In contrast, the Tesla GPUs exhibited higher rates on DRAM utilization due to the ECC protection, which caused a much larger DRAM traffic (3,840,153,10 7) alu_fu ( 4) l2 ( 10) dram ( 8) l2 ( 8) dram ( 6) btr-fnd alu_fu (3) alu_fu ( 3) l2 ( 5) single_precision_fu ( 3) alu_fu ( 4) ldst_fu (4) btr-rng alu_fu ( 4) ldst_fu ( 4) l2 ( 6) tex ( 4) alu_fu ( 4) ldst_fu ( 5) bp-adj l2 (4) dram ( 5) l2 ( 9) dram ( 8) dram ( 5) dram (4) bp-fwd alu_fu ( 7) alu_fu ( 7) single_precision_fu ( 6) single_precision_fu ( 5) alu_fu ( 8) alu_fu ( 7) bfs-k1 alu_fu (2) ldst_fu ( 2) dram ( 3) dram ( 2) dram ( 4) dram (3) bfs-k2 alu_fu ( 4) alu_fu ( 3) dram ( 4) dram ( 3) alu_fu ( 4) alu_fu (3) dwt-cpy dram ( 9) dram ( 8) dram (…”

Section: Special Case Considerationsmentioning

confidence: 99%

A GPU performance estimation model based on micro-benchmarks and black-box kernel profiling

Konstantinidis¹,

Κωνσταντινίδης²

View full text Add to dashboard Cite

Κατά την τελευταία δεκαετία, οι επεξεργαστές γραφικών (GPUs) έχουν εδραιωθεί στον τομέα των υπολογιστικών συστημάτων υψηλής απόδοσης ως επιταχυντές υπολογισμών. Τα βασικά χαρακτηριστικά που δικαιολογούν αυτή τη σύγχρονη τάση είναι η εξαιρετικά υψηλή υπολογιστική απόδοση τους και η αξιοσημείωτη ενεργειακή αποδοτικότητα τους. Ωστόσο, η απόδοση τους είναι πολύ ευαίσθητη σε πολλούς παράγοντες, όπως π.χ. τον τύπο των μοτίβων πρόσβασης στη μνήμη (memory access patterns), την απόκλιση διακλαδώσεων (branch divergence), τον βαθμό παραλληλισμού και τις δυνητικές καθυστερήσεις (latencies). Συνεπώς, ο χρόνος εκτέλεσης ενός πυρήνα (kernel) σε ένα επεξεργαστή γραφικών είναι ένα δύσκολα προβλέψιμο μέγεθος. Στην περίπτωση που η απόδοση του πυρήνα δεν περιορίζεται από καθυστερήσεις, μπορεί να παρασχεθεί μια χονδρική εκτίμηση του χρόνου εκτέλεσης σε ένα συγκεκριμένο επεξεργαστή εφαρμόζοντας το μοντέλο γραμμής-οροφής (roofline), το οποίο χρησιμοποιείται για να αντιστοιχίσει την ένταση υπολογισμών του προγράμματος στην μέγιστη αναμενόμενη απόδοση για ένα συγκεκριμένο επεξεργαστή. Αν και αυτή η προσέγγιση είναι απλή, δεν μπορεί να παρέχει ακριβή αποτελέσματα πρόβλεψης.Σε αυτή τη διατριβή, μετά την επαλήθευση της αρχής του μοντέλου γραμμής-οροφής σε επεξεργαστές γραφικών με τη χρήση ενός μικρο-μετροπρογράμματος, προτείνεται ένα αναλυτικό μοντέλο απόδοσης. Συγκεκριμένα, βελτιώνεται το μοντέλο γραμμής-οροφής ακολουθώντας μια ποσοτική προσέγγιση και παρουσιάζεται μία πλήρως αυτοματοποιημένη μέθοδος πρόβλεψης απόδοσης σε επεξεργαστή γραφικών. Από αυτή την άποψη, το προτεινόμενο μοντέλο χρησιμοποιεί την αξιολόγηση μέσω μικρο-μετροπρογραμμάτων και την καταγραφή μετρικών με μέθοδο «μαύρου κουτιού», καθώς δεν απαιτείται διερεύνηση του πηγαίου/δυαδικού κώδικα. Το προτεινόμενο μοντέλο συνδυάζει τις παραμέτρους του επεξεργαστή γραφικών και του πυρήνα για να χαρακτηρίσει τον παράγοντα περιορισμού της απόδοσης και να προβλέψει το χρόνο εκτέλεσης στο στοχευόμενο υλικό, λαμβάνοντας υπόψη την αποδοτικότητα των ωφελίμων υπολογιστικών εντολών. Επιπλέον, προτείνεται η οπτική αναπαράσταση «διαμοιρασμού-τεταρτημορίου» (“quadrant-split”), η οποία αποδίδει τα χαρακτηριστικά πολλών επεξεργαστών σε σχέση με έναν συγκεκριμένο πυρήνα.Η πειραματική αξιολόγηση συνδυάζει δοκιμαστικές εκτελέσεις σε υπολογισμούς μορίων (κόκκινο/μαύρο SOR, LMSOR), πολλαπλασιασμό πινάκων (SGEMM) και ένα σύνολο 28 πυρήνων της σουίτας μετροπρογραμμάτων Rodinia, όλα εφαρμοσμένα σε έξι επεξεργαστές γραφικών CUDA. Το παρατηρηθέν απόλυτο σφάλμα στις προβλέψεις ήταν 27,66% στη μέση περίπτωση. Διερευνήθηκαν και αιτιολογήθηκαν ιδιαίτερες περιπτώσεις εσφαλμένων προβλέψεων. Επιπλέον, το προαναφερθέν μικρο-μετροπρόγραμμα χρησιμοποιήθηκε ως αντικείμενο για την πρόβλεψη απόδοσης και τα αποτελέσματα ήταν πολύ ακριβή. Προσθέτως, το μοντέλο απόδοσης εξετάστηκε σε σύνθετο περιβάλλον μεταξύ διαφορετικών κατασκευαστών, εφαρμόζοντας τη μέθοδο πρόβλεψης στους ίδιους πηγαίους κώδικες πυρήνων μέσω του περιβάλλοντος προγραμματισμού HIP που υποστηρίζεται από την πλατφόρμα AMD ROCm. Τα σφάλματα πρόβλεψης ήταν συγκρίσιμα αυτών των πειραμάτων του περιβάλλοντος CUDA, παρά τις σημαντικές διαφορές αρχιτεκτονικής που παρατηρούνται μεταξύ των διαφορετικών κατασκευαστών επεξεργαστών γραφικών.

show abstract

A Performance Model for GPU-Accelerated FDTD Applications

Cited by 11 publications

References 14 publications

Multiple-Gpu-Based Frequency-Dependent Finite-Difference Time Domain Formulation Using Matlab Parallel Computing Toolbox

Multiple-Gpu-Based Frequency-Dependent Finite-Difference Time Domain Formulation Using Matlab Parallel Computing Toolbox

A Python Framework for Fast Modelling and Simulation of Cellular Nonlinear Networks and other Finite-difference Time-domain Systems

A GPU performance estimation model based on micro-benchmarks and black-box kernel profiling

Contact Info

Product

Resources

About