2013
DOI: 10.1007/s11227-013-0921-z
|View full text |Cite
|
Sign up to set email alerts
|

uBench: exposing the impact of CUDA block geometry in terms of performance

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1
1
1

Citation Types

1
32
0
3

Year Published

2014
2014
2017
2017

Publication Types

Select...
5
2

Relationship

1
6

Authors

Journals

citations
Cited by 23 publications
(36 citation statements)
references
References 1 publication
1
32
0
3
Order By: Relevance
“…In the current prototype, the CPU threads granularity is determined by a simple regular blocking policy, that does not require a specific kernel characterization. For GPU kernels, the library integrates the model presented in [15,21]. This model allows the determination of configuration parameters (grid, threadblock, and L1 cache memory sizes), for NVIDIA's GPUs.…”
Section: Controllers Librarymentioning
confidence: 99%
“…In the current prototype, the CPU threads granularity is determined by a simple regular blocking policy, that does not require a specific kernel characterization. For GPU kernels, the library integrates the model presented in [15,21]. This model allows the determination of configuration parameters (grid, threadblock, and L1 cache memory sizes), for NVIDIA's GPUs.…”
Section: Controllers Librarymentioning
confidence: 99%
“…Kepler es una evolución de Fermi, con más recursos y con muchas características nuevas, pero en lo básico, lo descrito para la optimización de Fermi en el Apartado 2.4.3.2.1 es válido para Kepler, con trabajos que así lo avalan [97], aunque, con algunos matices. Así, la elección del tamaño de bloque y su forma, es una de las decisiones más importantes que el programador debe tomar cuando codifica en CUDA un algoritmo paralelo.…”
Section: Optimización En Keplerunclassified
“…Las guías de programación que ofrece CUDA sugieren el uso de determinados valores para obtener buenos rendimientos. Sin embargo, algunos estudios [15,16] han demostrado que en algunos estas recomendaciones no siempre devuelven rendimientos óptimos, obligando a los programadores a realizar test de prueba-y-error para encontrar los valores que se ajustan a los mejores rendimientos.…”
Section: Examples Of a Graph Withunclassified
“…Esta técnica nos permitirá resolver el problema del APSP a través del método basado en productividad conocido como n×SSSP , donde se ejecuta cada SSSP con un nodo origen diferente de manera independientemente. Refinaremos un modelo de caracterización de kernels ya existente [16], considerando no sólo la nueva funcionalidad de la ejecución concurrente de kernels, sino también para que tenga en cuenta algunas de las características de los grafos de entrada.…”
Section: P Ropuesta Y Desarrollounclassified
See 1 more Smart Citation