昇腾社区首页
中文
注册

MindIO TFT

组件应用场景

LLM训练中,每次保存CheckPoint数据,加载数据重新迭代训练,保存和加载周期CheckPoint,都需要比较长的时间。在故障发生后,MindIO TFT特性,立即生成一次CheckPoint数据,恢复时也能立即恢复到故障前一刻的状态,减少迭代损失。MindIO UCEMindIO ARF针对不同的故障类型,完成在线修复或仅故障节点重启级别的在线修复,节约集群停止重启时间。

组件功能

MindIO TFT包括临终CheckPoint保存、进程级在线恢复和优雅容错等功能,分别对应:

  • MindIO TTP主要是在大模型训练过程中发生故障后,校验中间状态数据的完整性和一致性,生成一次临终CheckPoint数据,恢复训练时能够通过该CheckPoint数据恢复,减少故障造成的训练迭代损失。
  • MindIO UCE主要针对大模型训练过程中片上内存的UCE故障检测,并完成在线修复,达到Step级重计算。
  • MindIO ARF主要针对训练发生异常后,不用重新拉起整个集群,只需以节点为单位进行重启或替换,完成修复并继续训练。

组件上下游依赖

图1 MindIO TFT