开发者
资源

整体架构

断点续训特性基于VolcanoHCCL ControllerAscend OperatorAscend Device PluginNodeDElastic Agent等组件,整体的架构如图1所示。

图1 整体架构图

其中各组件的能力如下:

  1. Ascend Device Plugin:故障发现组件,提供NPU资源管理、NPU芯片故障和NPU网络故障上报等能力。
  2. NodeD:故障发现组件,提供节点健康状态上报能力;同时,提供节点硬件故障上报能力。
    • NodeD的节点硬件故障上报能力仅支持Atlas 800T A2 训练服务器Atlas 900 A2 PoD 集群基础单元
    • 仅V2 3.15.0.1及以上版本的iBMC,且安装了IPMC驱动的产品,支持NodeD的节点硬件故障上报能力。低版本的iBMC或IPMI获取节点故障信息失败时,将只上报节点健康状态。
  3. Volcano:故障处理组件,提供故障任务重调度的能力。
  4. HCCL Controller:训练基础组件,提供分布式通信文件生成能力。当分布式训练信息基于环境变量时,可将其替换为Ascend Operator
  5. Elastic Agent:在数据并行、混合并行场景下提供策略恢复功能。
  6. 训练模型代码:需要进行断点续训相关能力的适配操作。