Coping with silent and fail-stop errors at scale by combining replication and checkpointing

Benoît, Anne; Cavelan, Aurélien; Cappello, Franck; Raghavan, Padma; Robert, Yves; Sun, Hongyang

doi:10.1016/j.jpdc.2018.08.002

Cited by 13 publications

(15 citation statements)

References 49 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…which is the well-known and original Young formula [42]. Variants of Equation (4) have been proposed in the literature, such as T opt = 2(µ + R)C in [13] [24]. All variants are approximations that collapse to Equation (4).…”

Section: With a Single Processormentioning

confidence: 99%

“…Also, Ni et al [30] introduce process duplication to cope with both fail-stop and silent errors. Recently, Benoit et al [4] extended these work to general applications, and compare traditional process replication with group replication, where the whole application is replicated as a black box. They analyze several scenarios with duplication or triplication.…”

Section: Related Workmentioning

confidence: 99%

See 1 more Smart Citation

Replication is more efficient than you think

Benoît

Hérault

Fèvre

et al. 2019

Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis

Self Cite

View full text Add to dashboard Cite

This paper revisits replication coupled with checkpointing for failstop errors. Replication enables the application to survive many fail-stop errors, thereby allowing for longer checkpointing periods. Previously published works use replication with the no-restart strategy, which works as follows: (i) compute the application Mean Time To Interruption (MTTI) M as a function of the number of processor pairs and the individual processor Mean Time Between Failures (MTBF); (ii) use checkpointing period T no MTTI = √ 2MC à la Young/Daly, where C is the checkpoint duration; and (iii) never restart failed processors until the application crashes. We introduce the restart strategy where failed processors are restarted after each checkpoint. We compute the optimal checkpointing period T rs opt for this strategy, which is much larger than T no MTTI , thereby decreasing I/O pressure. We show through simulations that using T rs opt and the restart strategy, instead of T no MTTI and the usual no-restart strategy, significantly decreases the overhead induced by replication, in terms of both total execution time and energy consumption.

show abstract

Section: With a Single Processormentioning

confidence: 99%

Section: Related Workmentioning

confidence: 99%

Replication is more efficient than you think

Benoît

Hérault

Fèvre

et al. 2019

Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis

Self Cite

View full text Add to dashboard Cite

show abstract

“…Más recientemente, una serie de estudios [128] han permitido llegar a la conclusión de que el M T BF depende principalmente de la cantidad de procesadores, resultando inversamente proporcional al tamaño del sistema. Por lo tanto, desde el punto de vista de la resiliencia, la escala es el gran enemigo [14]. Se proyecta de los sistemas de exa-escala contengan del orden de decenas o centenares de millones de cores dentro de la década actual; de hecho, el supercomputador que ocupa actualmente el tercer lugar de la lista del Top500 (es decir, en noviembre de 2019 -https://www.top500.org/list/2019/11/) tiene 10.649.600 cores (Sunway T aihuLight).…”

Section: Algunos Casos Realesunclassified

“…Debido a que la replicación se da actualmente a nivel de procesos, la escala se vuelve un problema aún más grave [14]. Con millones de procesadores (y billones de threads), la probabilidad de errores durante las ejecuciones puede llegar a ser significativa, dependiendo de si los fabricantes de circuitos incrementen o no significativamente la protección sobre la lógica, los latches, los f lip − f lops y los arreglos estáticos en los procesadores.…”

Section: Algunos Casos Realesunclassified

“…. El Master reparte la matriz A (SCATTER) Los autores de [14] mencionan una idea similar a esta cuando se refieren a "replicación grupal" (group replication), que es una técnica que puede utilizarse cuando la replicación de procesos no está disponible (debido, por ejemplo, a la gran cantidad de trabajo que demanda implementarla explícitamente dentro del código de la aplicación). Como la replicación grupal ve a la aplicación como una "caja negra", es agnóstica al modelo de programación paralela, requieriendo sólo que la aplicación pueda ser lanzada desde un checkpoint almacenado.…”

Section: : 20unclassified

See 1 more Smart Citation

SEDAR: Detección y recuperación automática de fallos transitorios en sistemas de cómputo de altas prestaciones

Montezanti¹

View full text Add to dashboard Cite

El manejo de fallos es una preocupación creciente en el contexto del HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detección más largos y fallos silenciosos. Se proyecta que, en los próximos sistemas de exa-escala, los errores ocurran incluso varias veces al día y se propaguen en grandes aplicaciones paralelas, generando desde caídas de procesos hasta corrupciones de resultados debidas a fallos no detectados. En este trabajo se propone SEDAR, una metodología que mejora la fiabilidad, frente a los fallos transitorios, de un sistema que ejecuta aplicaciones paralelas de paso de mensajes. La solución diseñada, basada en replicación de procesos para la detección, combinada con diferentes niveles de checkpointing (checkpoints de nivel de sistema o de nivel de aplicación) para recuperar automáticamente, tiene el objetivo de ayudar a los usuarios de aplicaciones científicas a obtener ejecuciones confiables con resultados correctos. La detección se logra replicando internamente cada proceso de la aplicación en threads y monitorizando los contenidos de los mensajes entre los threads antes de enviar a otro proceso; además, los resultados finales se validan para prevenir la corrupción del cómputo local. Esta estrategia permite relanzar la ejecución desde el comienzo ni bien se produce la detección, sin esperar innecesariamente hasta la conclusión incorrecta. Para la recuperación, se utilizan checkpoints de nivel de sistema, pero debido a que no existe garantía de que un checkpoint particular no contenga errores silenciosos latentes, se requiere el almacenamiento y mantenimiento de múltiples checkpoints, y se implementa un mecanismo para reintentar recuperaciones sucesivas desde checkpoints previos si el mismo error se detecta nuevamente. La última opción es utilizar un único checkpoint de capa de aplicación, que puede ser verificado para asegurar su validez como punto de recuperación seguro. En consecuencia, SEDAR se estructura en tres niveles: (1) sólo detección y parada segura con notificación al usuario; (2) recuperación basada en una cadena de checkpoints de nivel de sistema; y (3) recuperación basada en un único checkpoint válido de capa de aplicación. Cada una de estas variantes brinda una cobertura particular, pero tiene limitaciones inherentes y costos propios de implementación; la posibilidad de elegir entre ellos provee flexibilidad para adaptar la relación costo-beneficio a las necesidades de un sistema particular. Se presenta una descripción completa de la metodología, su comportamiento en presencia de fallos y los overheads temporales de emplear cada una de las alternativas. Se describe un modelo que considera varios escenarios de fallos y sus efectos predecibles sobre una aplicación de prueba para realizar una verificación funcional. Además, se lleva a cabo una validación experimental sobre una implementación real de la herramienta SEDAR, utilizando diferentes benchmarks con patrones de comunicación disímiles. El comportamiento en presencia de fallos, inyectados controladamente en distintos momentos de la ejecución, permite evaluar el desempeño y caracterizar el overhead asociado a su utilización. Tomando en cuenta esto, también se establecen las condiciones bajo las cuales vale la pena comenzar con la protección y almacenar varios checkpoints para recuperar, en lugar de simplemente detectar, detener la ejecución y relanzar. Las posibilidades de configurar el modo de uso, adaptándolo a los requerimientos de cobertura y máximo overhead permitido de un sistema particular, muestran que SEDAR es una metodología eficaz y viable para la tolerancia a fallos transitorios en entornos de HPC.

show abstract

A Comparison of Several Fault-Tolerance Methods for the Detection and Correction of Floating-Point Errors in Matrix-Matrix Multiplication

Fèvre

Hérault

Langou

et al. 2021

Lecture Notes in Computer Science

Self Cite

View full text Add to dashboard Cite

This report compares several fault-tolerance methods for the detection and correction of floating-point errors in matrix-matrix multiplication. These methods include replication, triplication, Algorithm-Based Fault Tolerance (ABFT) and residual checking (RC). Error correction for ABFT can be achieved either by recovering the corrupted entries from the correct data and the checksums by solving a small-size linear system of equations, or by recomputing corrupted coefficients. We show that both approaches can be used for RC. We provide a synthetic presentation of all methods before discussing their pros and cons. We have implemented all these methods with calls to optimized BLAS routines, and we provide performance data for a wide range of failure rates and matrix sizes. In addition, with respect to the literature, this paper consider relatively high error rates.

show abstract

Coping with silent and fail-stop errors at scale by combining replication and checkpointing

Cited by 13 publications

References 49 publications

Replication is more efficient than you think

Replication is more efficient than you think

SEDAR: Detección y recuperación automática de fallos transitorios en sistemas de cómputo de altas prestaciones

A Comparison of Several Fault-Tolerance Methods for the Detection and Correction of Floating-Point Errors in Matrix-Matrix Multiplication

Contact Info

Product

Resources

About