kubernetes标识增加说明
node label名称 |
作用 |
取值 |
使用组件 |
---|---|---|---|
accelerator |
标识节点的处理芯片。 |
huawei-Ascend910、huawei-Ascend310、huawei-Ascend310P |
Ascend Device Plugin |
host-arch |
标识节点的cpu架构。 |
huawei-x86;huawei-arm |
Volcano |
masterselector |
标识MindX DL的管理节点。 |
dls-master-node |
Volcano、hccl-controller、Resilience-controller |
nodeDEnable |
节点noded启动的开关。 |
on |
Volcano、Resilience-controller |
workerselector |
标识MindX DL的计算节点。 |
dls-worker-node |
Ascend Device Plugin、Noded、NPU-Exporter |
accelerator-type |
标识Atlas训练服务器类型。 |
card;module;half |
Ascend Device Plugin、Volcano |
servertype |
Atlas 200I Soc A1核心板标识。 |
soc |
Volcano |
huawei.com/Ascend910-Recover |
910芯片故障恢复标识。 |
故障芯片ID |
Ascend Device Plugin |
huawei.com/Ascend910-NetworkUnhealthyRecover |
910芯片网络故障恢复标识。 |
故障芯片ID |
Ascend Device Plugin |
node annotation名称 |
作用 |
取值 |
使用组件 |
---|---|---|---|
noded/heartbeat |
noded的心跳,标识节点是否健康。 |
string |
Volcano、Noded、Resilience-controller |
noded/heartbeat-interval |
noded的心跳间隔。 |
string |
Volcano、Noded、Resilience-controller |
名称 |
作用 |
取值 |
使用组件 |
---|---|---|---|
ring-controller.atlas |
标识atlas的pod。 |
ascend-910 |
Ascend Device Plugin、HCCL-Controller |
fault-scheduling |
任务故障重调度开关。 |
grace、force、off |
Volcano、Resilience-controller |
elastic-scheduling |
任务弹性调度开关。 |
on |
Resilience-controller |
名称 |
作用 |
取值 |
使用组件 |
---|---|---|---|
ascend.kubectl.kubernetes.io/ascend-910-configuration |
hccl-controller生成hccl.json的数据来源。 |
字符串map |
Ascend Device Plugin、HCCL-Controller |
hccl/rankIndex |
断点续训中保持原rankId的依据。 |
[0,1000] |
Volcano、HCCL-Controller |
huawei.com/Ascend910 |
Ascend Device Plugin为pod分配芯片的依据。 |
字符串 |
Volcano、Ascend Device Plugin |
huawei.com/AscendReal |
Ascend Device Plugin为pod实际分配芯片的记录。 |
字符串 |
Volcano、Ascend Device Plugin |
huawei.com/kltDev |
kubelet为pod分配芯片的记录。 |
字符串 |
Ascend Device Plugin |
predicate-time |
Ascend Device Plugin为pod分配芯片的顺序依据。 |
字符串 |
Volcano、Ascend Device Plugin |
名称 |
命名空间 |
作用 |
使用组件 |
---|---|---|---|
vcjob-fault-npu-cm |
volcano-system |
固化故障重调度内容。 |
Volcano |
volcano-scheduler-configmap |
volcano-system |
volcano-scheduler的配置文件(原生)。 |
Volcano |
mindx-dl-deviceinfo-节点名称 |
kube-system |
Ascend Device Plugin上报的node的芯片信息。 |
Volcano、Ascend Device Plugin、Resilience-controller |
fault-config-任务名称 |
任务空间 |
断点续训需要的故障rankID信息。 |
Volcano、elastic-agent |
rings-config-任务名称 |
任务空间 |
hccl.json内容。 |
Ascend Device Plugin、HCCL-Controller |