昇腾社区首页
中文
注册

K8s原生对象说明

Service label

表1 集群调度对Service的使用说明

名称

作用

取值

使用组件

group-name

标记Pod对应的acjob的group名称

mindxdl.gitee.com

VolcanoAscend Operator

job-name

标记Pod对应的acjob名称

字符串

Ascend Operator

replica-index

标记Pod序号(后续将删除)

[0-{pod数量-1}]

Ascend Operator

replica-type

标记Pod类型(后续将删除)

  • master
  • chief
  • scheduler
  • worker

Ascend Operator

training.kubeflow.org/job-name

标记Pod对应的acjob名称

字符串

Ascend Operator

training.kubeflow.org/operator-name

标记创建Pod的operator名称

ascendjob-controller

Ascend Operator

training.kubeflow.org/replica-index

标记Pod序号

[0-{pod数量-1}]

Ascend Operator

training.kubeflow.org/replica-type

标记Pod类型

  • master
  • chief
  • scheduler
  • worker

Ascend Operator

node label

表2 集群调度对node label使用说明

node label名称

作用

取值

使用组件

accelerator

标识节点的处理芯片

huawei-Ascend910、huawei-Ascend310、huawei-Ascend310P

Ascend Device Plugin

host-arch

标识节点的CPU架构

huawei-x86;huawei-arm

Volcano

masterselector

标识MindCluster的管理节点

dls-master-node

VolcanoAscend OperatorResilience ControllerClusterD

node.kubernetes.io/npu.chip.name

上报当前芯片的具体类型

  • 310
  • 310P1
  • 310P2
  • 310P3
  • 310P4
  • {xxx}A
  • 910PremiumA
  • 910ProA
  • 910ProB
  • {xxx}Bx(x可取值为1、2、3、4)

Ascend Device Plugin

说明:

芯片型号的数值可通过npu-smi info命令查询,返回的“Name”字段对应信息为芯片型号,下文的{xxx}即取“910”字符作为芯片型号数值。

nodeDEnable

NodeD节点启动的开关

on

VolcanoResilience Controller

说明:
  • nodeDEnable=on标签表示启用NodeD的节点状态监测功能,用于获取节点的状态信息并用于判断节点是否故障。
  • 取值为off或无该参数表示仅上报节点信息,不判断节点是否故障。
  • 使用容器化支持或者资源监测时,可以不配置该标签;其他特性必须配置该标签。

workerselector

标识MindCluster的计算节点

dls-worker-node

Ascend Device PluginNodeDNPU Exporter

accelerator-type

标识Atlas服务器类型

  • card
  • module
  • half
  • module-{xxx}b-8
  • module-{xxx}b-16
  • card-{xxx}b-2
  • card-{xxx}b-infer
  • module-a3-16

Ascend Device PluginVolcano

servertype

Atlas 200I SoC A1 核心板标识

  • soc
  • Ascend910-{aicore核数}
  • Ascend310P-{aicore核数}

VolcanoAscend Device Plugin

huawei.com/Ascend910-Recover

Atlas 训练系列产品故障恢复标识

故障芯片ID

Ascend Device Plugin

huawei.com/Ascend910-NetworkRecover

Atlas 训练系列产品网络故障恢复标识

故障芯片ID

Ascend Device Plugin

infer-card-type

Ascend Device Plugin写入,表明节点推理卡类型。

card-300i-duo

Volcano

mind-cluster/npu-chip-memory

芯片片上内存

mind-cluster/npu-chip-memory=64G

VolcanoAscend Device Plugin

Pod label

表3 集群调度组件Pod label使用说明

名称

作用

取值

使用组件

ring-controller.atlas

标识atlas的Pod

  • ascend-910
  • ascend-{xxx}b

Ascend Device Plugin

vnpu-dvpp

标记Pod设置的dvpp

yes:该pod使用DVPP。

no:该pod不使用DVPP。

null:默认值。不关注是否使用DVPP。

Volcano

vnpu-level

标记选择虚拟化实例模板的等级。

low:低配,默认值。

high:性能优先。

Volcano

version

标记Pod的版本

字符串

Ascend Operator

volcano.sh/job-name

标记Pod对应vcjob名称

字符串

Volcano

volcano.sh/job-namespace

标记Pod对应vcjob名称空间

字符串

Volcano

volcano.sh/queue-name

标记Pod对应queue名称

字符串

Volcano

volcano.sh/task-spec

标记Pod对应task名称

字符串

Volcano

fault-type

标记Pod故障处理策略

  • SubHealth
  • Separate

Volcano

deploy-name

标记Pod对应的deployment名称

字符串

Ascend Operator

group-name

标记Pod对应的acjob的group名称

mindxdl.gitee.com

VolcanoAscend Operator

job-name

标记Pod对应的acjob名称

字符串

Ascend Operator

replica-index

标记Pod序号(后续将删除)

[0-{pod数量-1}]

Ascend Operator

replica-type

标记Pod类型(后续将删除)

  • master
  • chief
  • scheduler
  • worker

Ascend Operator

training.kubeflow.org/job-name

标记Pod对应的acjob名称

字符串

Ascend Operator

training.kubeflow.org/job-role

标记Pod类型

master

Ascend Operator

training.kubeflow.org/operator-name

标记创建Pod的operator名称

ascendjob-controller

Ascend Operator

training.kubeflow.org/replica-index

标记Pod序号

[0-{pod数量-1}]

Ascend Operator

training.kubeflow.org/replica-type

标记Pod类型

  • master
  • chief
  • scheduler
  • worker

Ascend Operator

Pod annotation

表4 集群调度组件Pod annotation使用说明

名称

作用

取值

使用组件

ascend.kubectl.kubernetes.io/ascend-910-configuration

Ascend Operator生成hccl.json的数据来源

字符串map

Ascend Device Plugin

Ascend Operator

super_pod_id

Ascend Operator提供超节点ID信息

数字

Ascend Operator

hccl/rankIndex

断点续训中保持原rankId的依据

[0,1000]

VolcanoAscend Operator

distributed-job

标记训练任务类型

  • true:当前任务为分布式任务
  • false:当前任务为单机任务

Volcano

huawei.com/Ascend910

Ascend Device PluginPod分配芯片的依据。

字符串

VolcanoAscend Device Plugin

huawei.com/AscendReal

Ascend Device PluginPod实际分配芯片的记录。

字符串

VolcanoAscend Device Plugin

huawei.com/npu-core

标记Pod使用的npu卡物理ID及切分模板。

字符串

VolcanoAscend Device Plugin

huawei.com/kltDev

kubeletPod分配芯片的记录。

字符串

Ascend Device Plugin

predicate-time

Ascend Device PluginPod分配芯片的顺序依据。

字符串

VolcanoAscend Device Plugin

isSharedTor

标记Pod对应的交换机属性

整数

Volcano

isHealthy

标记Pod对应的交换机状态

整数

Volcano

scheduling.k8s.io/group-name

标记Pod对应podGroup名称

字符串

Volcano

volcano.sh/job-name

标记Pod对应的vcjob名称

字符串

Volcano

volcano.sh/job-version

标记Pod对应的vcjob版本

字符串

Volcano

volcano.sh/queue-name

标记Pod对应的queue版本

字符串

Volcano

volcano.sh/task-spec

标记Pod对应task名称

字符串

Volcano

volcano.sh/template-uid

标记Pod对应pod-template名称

字符串

Volcano

sharedTorIp

标记任务使用的共享交换机信息

字符串

VolcanoClusterD

fault-job-delete

标记job的rank信息

字符串

Volcano

mind-cluster/hardware-type=800I-A2-xx

xx表示当前节点的片上内存,例如mind-cluster/hardware-type=800I-A2-64G

字符串

Volcano

Node annotation

表5 集群调度组件对Node annotation使用说明

名称

作用

取值

使用组件

baseDeviceInfos

展示芯片的基础信息,例如IP,供Volcano调度时使用

字符串

Volcano

product-serial-number

NodeD通过ipmi接口获取节点SN号并写入annotation,供ClusterD接收公共故障时使用。

字符串

ClusterD

superPodID

表示该节点所属的超节点的ID。

字符串

ClusterD

ResetInfo

展示Ascend Device Plugin自动复位失败的芯片信息,如芯片的物理ID、Card ID等。

字符串

Ascend Device Plugin

ResetInfo的内容格式如下所示。

{
    "ThirdPartyResetDevs": [
        {
            "CardId": 0,
            "DeviceId": 0,
            "AssociatedCardId": 4,
            "PhyID": 0,
            "LogicID": 0
        }
    ],
    "ManualResetDevs": [
        {
            "CardId": 1,
            "DeviceId": 0,
            "AssociatedCardId": 5,
            "PhyID": 2,
            "LogicID": 2
        }
    ]
}

K8s的ServiceAccount

表6 组件在K8s中创建的ServiceAccount列表

账号名

说明

volcano-controllers

开源volcano的controller组件在K8s中创建的用户。

volcano-scheduler

开源volcano的scheduler组件在K8s中创建的用户。

ascend-device-plugin-sa-910

用yaml启动服务,将会在K8s中创建该用户,不同型号的设备使用的账号名不同。

ascend-device-plugin-sa-310p

ascend-device-plugin-sa-310

ascend-operator-manager

用yaml启动服务,将会在K8s中创建该用户,如:ascend-operator-v{version}.yaml。

resilience-controller

建议安全加固启动,使用带without-token的yaml启动服务,在K8s中创建并使用resilience-controller账号,同时为该账号授予适当权限。

noded

用yaml启动服务,将会在K8s中创建该用户,如:noded-v{version}.yaml。

clusterd

用yaml启动服务,将会在K8s中创建该用户,如:clusterd-v{version}.yaml。

default

MindCluster组件或开源volcano部署时会在K8s中自动创建的用户。