断点续训特性基于Volcano、Ascend Operator、Ascend Device Plugin、NodeD、ClusterD和Elastic Agent等组件,整体的架构如图1所示。
图1 整体架构
其中各组件的能力如下:
- Ascend Device Plugin:故障发现组件,提供NPU资源管理、NPU芯片故障和NPU网络故障上报等能力。
- NodeD:故障发现组件,提供节点健康状态上报能力;同时,提供节点硬件故障上报能力。
- Volcano:故障处理组件,提供故障任务重调度的能力。
- Ascend Operator:为分布式训练任务创建pod生成环境变量;提供静态组网集合通信所需的ranktable信息。
- ClusterD:获取集群中所有Ascend Device Plugin和NodeD上报的数据,整理后发送给Volcano。
- Elastic Agent:提供与K8s集群的训练集群控制中心的通信功能,完成故障修复、恢复训练。
- 训练模型代码:需要进行断点续训相关能力的适配操作。