MindIO TFT
组件应用场景
LLM训练中,每次保存CheckPoint数据,加载数据重新迭代训练,保存和加载周期CheckPoint,都需要比较长的时间。在故障发生后,MindIO TFT特性,立即生成一次CheckPoint数据,恢复时也能立即恢复到故障前一刻的状态,减少迭代损失。MindIO UCE和MindIO ARF针对不同的故障类型,完成在线修复或仅故障节点重启级别的在线修复,节约集群停止重启时间。
组件功能
MindIO TFT包括临终CheckPoint保存、进程级在线恢复和优雅容错等功能,分别对应:
- MindIO TTP主要是在大模型训练过程中发生故障后,校验中间状态数据的完整性和一致性,生成一次临终CheckPoint数据,恢复训练时能够通过该CheckPoint数据恢复,减少故障造成的训练迭代损失。
- MindIO UCE主要针对大模型训练过程中片上内存的UCE故障检测,并完成在线修复,达到Step级重计算。
- MindIO ARF主要针对训练发生异常后,不用重新拉起整个集群,只需以节点为单位进行重启或替换,完成修复并继续训练。
组件上下游依赖
图1 MindIO TFT


父主题: 组件介绍