[ru] [en]

Главная

Создание контрольных точек (КТ) восстановления параллельных программ широко применяется для обеспечения их отказоустойчивого выполнения на распределенных вычислительных системах (ВС).

В большинстве существующих программных средств (OpenMPI, MVAPICH, DMTCP), позволяющих формировать КТ для параллельных программ, применяется синхронный подход, который предусматривает одновременное сохранение локальных КТ всеми ветвями программы. Это приводит к значительным накладным расходам, возникающим при создании КТ и связанных с повышенной нагрузкой на подсистему ввода-вывода данных ВС. Поэтому актуальной является задача снижения накладных расходов в процессе создания распределенных КТ за счет уменьшения их объема. Одним из подходов к решению данной проблемы является сжатие КТ.

Пакет HBICTHash Based Incremental Checkpointing Tool – предназначен для оптимизации КТ восстановления параллельных программ по времени их создания и объему с использованием алгоритмов универсального и дельта-сжатия.