2016
DOI: 10.14529/jsfi160101
|View full text |Cite
|
Sign up to set email alerts
|

NR-MPI: A N on-stop and Fault Resilient MPI SupportingProgrammer Defined Data Backup and Restore for E-scaleSuper Computing Systems

Abstract: Fault resilience has became a major issue for HPC systems, particularly, in the perspective of future E-scale systems, which will consist of millions of CPU cores and other components. MPI-level fault tolerant constructs, such as ULFM, are being proposed to support software level fault tolerance. However, there are few systematic evaluations by application programmers using benchmarks or pseudo applications. This paper proposes NR-MPI, a N on-stop and Fault Resilient MPI, supporting programmer defined data bac… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1

Citation Types

0
0
0
1

Year Published

2018
2018
2018
2018

Publication Types

Select...
1

Relationship

0
1

Authors

Journals

citations
Cited by 1 publication
(1 citation statement)
references
References 37 publications
0
0
0
1
Order By: Relevance
“…«HTCondor» и «BLCR» в настоящее время не имеют поддержки режима отказо-устойчивости для программ с регулярными межпроцессными обменами данных, что существенно ограничивает применимость такого подхода. Однако, использование библиотек, подобных «NR-MPI» [22], позволяет обойти данное ограничение. «NR-MPI» имеет набор дружественных программисту программных интерфейсов резервного копирования.…”
Section: Introductionunclassified
“…«HTCondor» и «BLCR» в настоящее время не имеют поддержки режима отказо-устойчивости для программ с регулярными межпроцессными обменами данных, что существенно ограничивает применимость такого подхода. Однако, использование библиотек, подобных «NR-MPI» [22], позволяет обойти данное ограничение. «NR-MPI» имеет набор дружественных программисту программных интерфейсов резервного копирования.…”
Section: Introductionunclassified