各步骤说明如下:
名称 |
类型 |
功能说明 |
---|---|---|
AI平台 |
用户提供 |
通过用户的AI平台在K8s集群中创建训练任务 |
NodeD |
MindCluster提供,已开源 |
用于上报节点状态以及节点硬件故障 |
Ascend Device Plugin |
MindCluster提供,已开源 |
用于芯片的发现与上报,故障检查与上报,执行芯片的热复位 |
Volcano |
MindCluster提供,已开源 |
负责正常调度基于芯片的训练任务,检查故障并重调度故障的训练任务 |
Ascend Operator |
MindCluster提供,已开源 |
Ascend Operator负责为不同AI框架的分布式训练任务提供相应的环境变量、生成分布式通信集合配置文件。 |
Ascend Docker Runtime |
MindCluster提供,已开源 |
负责为训练容器挂载芯片、驱动SO等文件 |
ClusterD |
MindCluster提供,已开源 |
收集集群所有的节点或芯片故障信息,整理后上报 |
NPU |
- |
NPU芯片,AI平台中的训练资源 |