整体架构
断点续训特性基于MindCluster Volcano、MindCluster Ascend Operator或MindCluster HCCL Controller、MindCluster Ascend Device Plugin、MindCluster NodeD、MindCluster ClusterD和MindCluster Elastic Agent等组件,整体的架构如图1所示。
其中各组件的能力如下:
- MindCluster Ascend Device Plugin:故障发现组件,提供NPU资源管理、NPU芯片故障和NPU网络故障上报等能力。
- MindCluster NodeD:故障发现组件,提供节点健康状态上报能力;同时,提供节点硬件故障上报能力。
- MindCluster Volcano:故障处理组件,提供故障任务重调度的能力。
- MindCluster Ascend Operator:为分布式训练生成环境变量;使用分布式通信文件可将其替换为MindCluster HCCL Controller。
- MindCluster ClusterD:获取集群中所有MindCluster Ascend Device Plugin和MindCluster NodeD上报的数据,整理后发送给MindCluster Volcano。
- MindCluster Elastic Agent:在数据并行、混合并行场景下提供策略恢复功能。
- 训练模型代码:需要进行断点续训相关能力的适配操作。
父主题: 特性说明
