参数面CKPT传输恢复

通过临终CKPT能力可以将每次训练由于CKPT回滚机制导致的训练回滚损失降到一个“step”内,但是在故障时刻时需要进行落盘保存,并在容错完成训练恢复后需要加载存储上的CKPT进行恢复,将导致整体故障恢复时间延长。因此,为了降低故障恢复时间,MindCluster集群调度组件提供参数面CKPT传输恢复能力。

在故障时刻将参数状态保持在设备侧,在容错完成训练恢复时将正常卡内的参数状态通过参数面网络传输到容错处理的卡上,从而快速恢复容错处理卡的参数状态。当前该能力需要结合进程级别重调度和进程级在线恢复使用,不支持用户独立使用。

了解参数面CKPT的配置步骤,请参见配置参数面传参恢复