产品描述

产品介绍

MindCluster MindIO Training Fault Tolerance(下文简称MindIO TFT)包括临终CheckPoint保存、进程级在线恢复和进程级别重调度等功能,分别对应:

产品价值

LLM(Large Language Model)是全球当前科技界竞争的焦点,LLM的训练往往需要长达数十天、甚至数月,CheckPoint是模型训练中断后恢复训练的关键点,CheckPoint过程中,整个集群中的训练任务会停滞,为了集群的利用率,CheckPoint的周期都配置的比较长,甚至达到数小时。这导致如果训练任务在即将生成CheckPoint数据的前一刻发生故障,未能生成本次CheckPoint数据,则只能从上一次的CheckPoint数据恢复,上次CheckPoint到故障前一刻的训练迭代需要重新计算,损失较大。MindIO TTP特性,在故障发生后,立即生成一次CheckPoint数据,恢复时也能立即恢复到故障前一刻的状态,减少迭代损失。

与此同时,LLM训练每一次保存CheckPoint数据并加载数据重新迭代训练所需时间同保存和加载周期CheckPoint类似都比较长,MindIO UCE在线修复,当NPU(Neural Network Processing Unit)发生UCE故障后,首先通过故障清理、故障恢复以及数据回滚等操作实现重新训练,恢复到故障前一刻的状态,节约训练停止重启时间;修复失败后走TTP流程作为保障措施。

MindIO TFT架构

MindIO TFT的各个功能集成在一个whl包中对外提供,需要通过import模块的方式,修改MindSpeed-LLM等大模型框架适配并使用对应功能。

MindIO TFT的关键点如下:

逻辑模型

部署形态