训练重启
在故障处理后,需要将训练任务重启,继续往下训练。当前故障重启的模式主要有周期性ckpt和临终遗言,对应断点续训的两个级别。
L1 故障重调度:能够从周期性保存的checkpoint文件恢复训练。
L2 临终遗言:基于故障恢复的高阶功能,提供保存故障时刻内存中的参数状态,从而缩短训练损失时间。
父主题:
功能实现