昇腾社区首页
中文
注册

kubernetes标识增加说明

表1 集群调度对node label使用说明

node label名称

作用

取值

使用组件

accelerator

标识节点的处理芯片。

huawei-Ascend910、huawei-Ascend310、huawei-Ascend310P

Ascend Device Plugin

host-arch

标识节点的cpu架构。

huawei-x86;huawei-arm

Volcano

masterselector

标识MindX DL的管理节点。

dls-master-node

Volcano、hccl-controller、Resilience-controller

nodeDEnable

节点noded启动的开关。

on

Volcano、Resilience-controller

workerselector

标识MindX DL的计算节点。

dls-worker-node

Ascend Device Plugin、Noded、NPU-Exporter

accelerator-type

标识Atlas训练服务器类型。

card;module;half

Ascend Device Plugin、Volcano

servertype

Atlas 200I Soc A1核心板标识。

soc

Volcano

huawei.com/Ascend910-Recover

910芯片故障恢复标识。

故障芯片ID

Ascend Device Plugin

huawei.com/Ascend910-NetworkUnhealthyRecover

910芯片网络故障恢复标识。

故障芯片ID

Ascend Device Plugin

表2 集群调度组件对node annotation使用说明

node annotation名称

作用

取值

使用组件

noded/heartbeat

noded的心跳,标识节点是否健康。

string

Volcano、Noded、Resilience-controller

noded/heartbeat-interval

noded的心跳间隔。

string

Volcano、Noded、Resilience-controller

表3 集群调度组件对pod label使用说明

名称

作用

取值

使用组件

ring-controller.atlas

标识atlas的pod。

ascend-910

Ascend Device Plugin、HCCL-Controller

fault-scheduling

任务故障重调度开关。

grace、force、off

Volcano、Resilience-controller

elastic-scheduling

任务弹性调度开关。

on

Resilience-controller

表4 集群调度组件对pod annotation使用说明

名称

作用

取值

使用组件

ascend.kubectl.kubernetes.io/ascend-910-configuration

hccl-controller生成hccl.json的数据来源。

字符串map

Ascend Device Plugin、HCCL-Controller

hccl/rankIndex

断点续训中保持原rankId的依据。

[0,1000]

Volcano、HCCL-Controller

huawei.com/Ascend910

Ascend Device Plugin为pod分配芯片的依据。

字符串

Volcano、Ascend Device Plugin

huawei.com/AscendReal

Ascend Device Plugin为pod实际分配芯片的记录。

字符串

Volcano、Ascend Device Plugin

huawei.com/kltDev

kubelet为pod分配芯片的记录。

字符串

Ascend Device Plugin

predicate-time

Ascend Device Plugin为pod分配芯片的顺序依据。

字符串

Volcano、Ascend Device Plugin

表5 集群调度组件对configmap使用说明

名称

命名空间

作用

使用组件

vcjob-fault-npu-cm

volcano-system

固化故障重调度内容。

Volcano

volcano-scheduler-configmap

volcano-system

volcano-scheduler的配置文件(原生)。

Volcano

mindx-dl-deviceinfo-节点名称

kube-system

Ascend Device Plugin上报的node的芯片信息。

Volcano、Ascend Device Plugin、Resilience-controller

fault-config-任务名称

任务空间

断点续训需要的故障rankID信息。

Volcano、elastic-agent

rings-config-任务名称

任务空间

hccl.json内容。

Ascend Device Plugin、HCCL-Controller