尽管通过异步保存周期性CKPT能够降低周期性保存间隔,从而降低每次故障的损失,但是由于仍然具有保存开销,难以做到秒级的故障损失。因此,MindCluster集群调度组件提供临终保存CKPT能力,在故障时刻保存当前step初始的参数状态,从而将训练恢复的状态损失降低到一个“step”以内。
MindCluster MindIO Try To Persist(下文简称MindIO TTP)提供临终CKPT能力,帮助用户在故障时刻保存临终时刻CKPT。
了解临终CKPT保存的详细介绍,请参见《MindCluster 故障恢复加速》。
了解临终CKPT保存的配置步骤,请参见配置临终CKPT保存。