Search citation statements
Paper Sections
Citation Types
Year Published
Publication Types
Relationship
Authors
Journals
A major contributor to the deployment and operational costs of a large-scale high-performance computing (HPC) clusters is the memory system. In terms of system performance it is one of the most critical aspects of the system’s design. However, next generation of HPC systems poses significant challenges for the main memory, and it is questionable whether current memory technologies will meet the required goals. In this thesis we focus on HPC performance aspects of the memory system design, covering memory bandwidth and latency. We start our study by evaluating and comparing three mainstream and five alternative HPC architectures, regarding memory bandwidth and latency aspects. Increasing diversity of HPC systems in the market causes their evaluation and comparison in terms of HPC features to become complex. There is as yet no well established methodology for a unified evaluation of HPC systems and workloads that quantifies the main performance bottlenecks. Our work provides a significant body of useful information and emphasizes four usually overlooked aspects of HPC systems’ evaluation. Understanding the dominant performance bottlenecks of HPC applications is essential for designing a balanced HPC system. In our study, we execute a set of real HPC applications from diverse scientific fields, quantifying FLOPS performance and memory bandwidth congestion. We show that the results depend significantly on the number of execution processes, and argue for guidance on selecting the representative scale of the experiments. Also, we find that average measurements of performance metrics and bottlenecks can be highly misleading, and suggest reporting as the percentage of execution time in which applications use certain portions of maximum sustained values. Innovations in 3D-stacking technology enable DRAM devices with much higher bandwidths than traditional DIMMs. The first such products hit the market, and some of the publicity claims that they will break through the memory wall. We summarize our preliminary analysis and expectations of how such 3D-stacked DRAMs will affect the memory wall for a set of representative HPC applications. We conclude that although 3D-stacked DRAM is a major technological innovation, it is unlikely to break through the memory wall. Novel memory systems are typically explored by hardware simulators that are slow and often have a simplified or obsolete model of the CPU. We propose an analytical model that quantifies the impact of the main memory on application performance and system power and energy consumption, based on the memory system and application profiles. The model is evaluated on a mainstream platform, comprising various DDR3 memory configurations, and an alternative platform comprising DDR4 and 3D-stacked high-bandwidth memory. The evaluation results show that the model predictions are accurate, typically with only 2% difference from the values measured on actual hardware. Additionally, we compare the model performance estimation with simulation results, and our model shows significantly better accuracy over the simulator, while being faster by three orders of magnitude. Overall, we believe our study provides valuable insights on the importance of memory bandwidth and latency in HPC: their role in evaluation and comparison of HPC platforms, guidelines on measuring and presenting the related performance bottlenecks, and understanding and modeling of their performance, power and energy impact. Un contribuyente importante a la implementación y los costos operativos de un clúster de computación de altas prestaciónes (HPC) es el sistema de memoria. En términos de prestación del sistema, es uno de los aspectos más críticos del diseño. Sin embargo, la próxima generación de sistemas HPC plantea desafíos importantes para la memoria principal, y es cuestionable si las tecnologías de memoria actuales cumplirán con los objetivos requeridos. En esta tesis, nos centramos en los aspectos de prestación de HPC del diseño del sistema de memoria, que cubren el ancho de banda y la latencia de la memoria. Comenzamos evaluando y comparando tres arquitecturas HPC principales y cinco alternativas, con respecto al ancho de banda de la memoria y los aspectos de latencia. La creciente diversidad de los sistemas de HPC en el mercado hace que su evaluación y comparación en términos de características de HPC se convierta en compleja. Todavía no existe una metodología bien establecida para una evaluación unificada de los sistemas HPC y las cargas de trabajo que cuantifique los principales impedimentos en la prestación. Nuestro trabajo proporciona un cuerpo importante de información útil y enfatiza cuatro aspectos que generalmente se pasan por alto en la evaluación de los sistemas HPC. Aprender los impedimentos dominantes en la prestación de las aplicaciones de HPC es esencial para diseñar un sistema de HPC equilibrado. En nuestro estudio, ejecutamos un grupo de aplicaciones reales de HPC de diversos campos científicos, cuantificando la prestación de FLOPS y congestión de ancho de banda de memoria. Mostramos que los resultados dependen significativamente de la cantidad de procesos de ejecución, y argumentamos para obtener orientación sobre la selección de la escala representativa de los experimentos. Además, encontramos que las mediciones promedio de métricas de rendimiento y impedimiento puede ser muy engañoso, y sugerir informes como el porcentaje del tiempo de ejecución en el que las aplicaciones utilizan ciertas partes de los valores máximos sostenidos. Las innovaciones en la tecnología de 3D permiten que los dispositivos DRAM tengan un ancho de banda mucho mayor que los módulos DIMM tradicionales. El primero de estos productos llegó al mercado, y algunas de las publicidades afirman que romperán el "Memory wall". Resumimos nuestro análisis preliminar y las expectativas de cómo dichas DRAM apiladas en 3D afectarán el "Memory wall" para un grupo de aplicaciones representativas de HPC. Llegamos a la conclusión de que, aunque la DRAM apilada en 3D es una innovación tecnológica importante, es improbable que rompa el "Memory wall". Los sistemas de memoria nuevos ser explorados por simuladores de hardware que son lentos y tienen un modelo simplificado u obsoleto de la CPU. Proponemos un modelo analítico que cuantifica el impacto de la memoria principal en el prestación de la aplicación y la potencia del sistema y el consumo de energía, según el sistema de memoria y los perfiles de la aplicación. El modelo se evalúa en una plataforma que comprende varias configuraciones de memoria DDR3, y una plataforma alternativa que comprende DDR4 y memoria de alto ancho de banda apilada en 3D. Los resultados de la evaluación muestran que las predicciones del modelo son precisas, generalmente con una diferencia de solo el 2% de los valores medidos en el hardware real. Además, comparamos la estimación del rendimiento del modelo con los resultados de la simulación, y nuestro modelo muestra una precisión significativamente mayor en el simulador, al mismo tiempo que es más rápido en tres órdenes de magnitud. En general, creemos que nuestro estudio proporciona información valiosa sobre la importancia del ancho de banda de la memoria y la latencia en HPC: su rol en la evaluación y comparación de plataformas HPC, las pautas para medir y presentar los impedimientos de la prestación y la comprensión y el impacto energético
A major contributor to the deployment and operational costs of a large-scale high-performance computing (HPC) clusters is the memory system. In terms of system performance it is one of the most critical aspects of the system’s design. However, next generation of HPC systems poses significant challenges for the main memory, and it is questionable whether current memory technologies will meet the required goals. In this thesis we focus on HPC performance aspects of the memory system design, covering memory bandwidth and latency. We start our study by evaluating and comparing three mainstream and five alternative HPC architectures, regarding memory bandwidth and latency aspects. Increasing diversity of HPC systems in the market causes their evaluation and comparison in terms of HPC features to become complex. There is as yet no well established methodology for a unified evaluation of HPC systems and workloads that quantifies the main performance bottlenecks. Our work provides a significant body of useful information and emphasizes four usually overlooked aspects of HPC systems’ evaluation. Understanding the dominant performance bottlenecks of HPC applications is essential for designing a balanced HPC system. In our study, we execute a set of real HPC applications from diverse scientific fields, quantifying FLOPS performance and memory bandwidth congestion. We show that the results depend significantly on the number of execution processes, and argue for guidance on selecting the representative scale of the experiments. Also, we find that average measurements of performance metrics and bottlenecks can be highly misleading, and suggest reporting as the percentage of execution time in which applications use certain portions of maximum sustained values. Innovations in 3D-stacking technology enable DRAM devices with much higher bandwidths than traditional DIMMs. The first such products hit the market, and some of the publicity claims that they will break through the memory wall. We summarize our preliminary analysis and expectations of how such 3D-stacked DRAMs will affect the memory wall for a set of representative HPC applications. We conclude that although 3D-stacked DRAM is a major technological innovation, it is unlikely to break through the memory wall. Novel memory systems are typically explored by hardware simulators that are slow and often have a simplified or obsolete model of the CPU. We propose an analytical model that quantifies the impact of the main memory on application performance and system power and energy consumption, based on the memory system and application profiles. The model is evaluated on a mainstream platform, comprising various DDR3 memory configurations, and an alternative platform comprising DDR4 and 3D-stacked high-bandwidth memory. The evaluation results show that the model predictions are accurate, typically with only 2% difference from the values measured on actual hardware. Additionally, we compare the model performance estimation with simulation results, and our model shows significantly better accuracy over the simulator, while being faster by three orders of magnitude. Overall, we believe our study provides valuable insights on the importance of memory bandwidth and latency in HPC: their role in evaluation and comparison of HPC platforms, guidelines on measuring and presenting the related performance bottlenecks, and understanding and modeling of their performance, power and energy impact. Un contribuyente importante a la implementación y los costos operativos de un clúster de computación de altas prestaciónes (HPC) es el sistema de memoria. En términos de prestación del sistema, es uno de los aspectos más críticos del diseño. Sin embargo, la próxima generación de sistemas HPC plantea desafíos importantes para la memoria principal, y es cuestionable si las tecnologías de memoria actuales cumplirán con los objetivos requeridos. En esta tesis, nos centramos en los aspectos de prestación de HPC del diseño del sistema de memoria, que cubren el ancho de banda y la latencia de la memoria. Comenzamos evaluando y comparando tres arquitecturas HPC principales y cinco alternativas, con respecto al ancho de banda de la memoria y los aspectos de latencia. La creciente diversidad de los sistemas de HPC en el mercado hace que su evaluación y comparación en términos de características de HPC se convierta en compleja. Todavía no existe una metodología bien establecida para una evaluación unificada de los sistemas HPC y las cargas de trabajo que cuantifique los principales impedimentos en la prestación. Nuestro trabajo proporciona un cuerpo importante de información útil y enfatiza cuatro aspectos que generalmente se pasan por alto en la evaluación de los sistemas HPC. Aprender los impedimentos dominantes en la prestación de las aplicaciones de HPC es esencial para diseñar un sistema de HPC equilibrado. En nuestro estudio, ejecutamos un grupo de aplicaciones reales de HPC de diversos campos científicos, cuantificando la prestación de FLOPS y congestión de ancho de banda de memoria. Mostramos que los resultados dependen significativamente de la cantidad de procesos de ejecución, y argumentamos para obtener orientación sobre la selección de la escala representativa de los experimentos. Además, encontramos que las mediciones promedio de métricas de rendimiento y impedimiento puede ser muy engañoso, y sugerir informes como el porcentaje del tiempo de ejecución en el que las aplicaciones utilizan ciertas partes de los valores máximos sostenidos. Las innovaciones en la tecnología de 3D permiten que los dispositivos DRAM tengan un ancho de banda mucho mayor que los módulos DIMM tradicionales. El primero de estos productos llegó al mercado, y algunas de las publicidades afirman que romperán el "Memory wall". Resumimos nuestro análisis preliminar y las expectativas de cómo dichas DRAM apiladas en 3D afectarán el "Memory wall" para un grupo de aplicaciones representativas de HPC. Llegamos a la conclusión de que, aunque la DRAM apilada en 3D es una innovación tecnológica importante, es improbable que rompa el "Memory wall". Los sistemas de memoria nuevos ser explorados por simuladores de hardware que son lentos y tienen un modelo simplificado u obsoleto de la CPU. Proponemos un modelo analítico que cuantifica el impacto de la memoria principal en el prestación de la aplicación y la potencia del sistema y el consumo de energía, según el sistema de memoria y los perfiles de la aplicación. El modelo se evalúa en una plataforma que comprende varias configuraciones de memoria DDR3, y una plataforma alternativa que comprende DDR4 y memoria de alto ancho de banda apilada en 3D. Los resultados de la evaluación muestran que las predicciones del modelo son precisas, generalmente con una diferencia de solo el 2% de los valores medidos en el hardware real. Además, comparamos la estimación del rendimiento del modelo con los resultados de la simulación, y nuestro modelo muestra una precisión significativamente mayor en el simulador, al mismo tiempo que es más rápido en tres órdenes de magnitud. En general, creemos que nuestro estudio proporciona información valiosa sobre la importancia del ancho de banda de la memoria y la latencia en HPC: su rol en la evaluación y comparación de plataformas HPC, las pautas para medir y presentar los impedimientos de la prestación y la comprensión y el impacto energético
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.