K8s原生对象说明
Service label
名称 |
作用 |
取值 |
使用组件 |
---|---|---|---|
group-name |
标记Pod对应的acjob的group名称 |
mindxdl.gitee.com |
Volcano、Ascend Operator |
job-name |
标记Pod对应的acjob名称 |
字符串 |
Ascend Operator |
replica-index |
标记Pod序号(后续将删除) |
[0-{pod数量-1}] |
Ascend Operator |
replica-type |
标记Pod类型(后续将删除) |
|
Ascend Operator |
training.kubeflow.org/job-name |
标记Pod对应的acjob名称 |
字符串 |
Ascend Operator |
training.kubeflow.org/operator-name |
标记创建Pod的operator名称 |
ascendjob-controller |
Ascend Operator |
training.kubeflow.org/replica-index |
标记Pod序号 |
[0-{pod数量-1}] |
Ascend Operator |
training.kubeflow.org/replica-type |
标记Pod类型 |
|
Ascend Operator |
node label
node label名称 |
作用 |
取值 |
使用组件 |
---|---|---|---|
accelerator |
标识节点的处理芯片 |
huawei-Ascend910、huawei-Ascend310、huawei-Ascend310P |
Ascend Device Plugin |
host-arch |
标识节点的CPU架构 |
huawei-x86;huawei-arm |
Volcano |
masterselector |
标识MindCluster的管理节点 |
dls-master-node |
Volcano、Ascend Operator、Resilience Controller、ClusterD |
node.kubernetes.io/npu.chip.name |
上报当前芯片的具体类型 |
|
Ascend Device Plugin 说明:
芯片型号的数值可通过npu-smi info命令查询,返回的“Name”字段对应信息为芯片型号,下文的{xxx}即取“910”字符作为芯片型号数值。 |
nodeDEnable |
NodeD节点启动的开关 |
on |
Volcano、Resilience Controller 说明:
|
workerselector |
标识MindCluster的计算节点 |
dls-worker-node |
Ascend Device Plugin、NodeD、NPU Exporter |
accelerator-type |
标识Atlas服务器类型 |
|
Ascend Device Plugin、Volcano |
servertype |
Atlas 200I SoC A1 核心板标识 |
|
Volcano、Ascend Device Plugin |
huawei.com/Ascend910-Recover |
Atlas 训练系列产品故障恢复标识 |
故障芯片ID |
Ascend Device Plugin |
huawei.com/Ascend910-NetworkRecover |
Atlas 训练系列产品网络故障恢复标识 |
故障芯片ID |
Ascend Device Plugin |
infer-card-type |
由Ascend Device Plugin写入,表明节点推理卡类型。 |
card-300i-duo |
Volcano |
mind-cluster/npu-chip-memory |
芯片片上内存 |
mind-cluster/npu-chip-memory=64G |
Volcano、Ascend Device Plugin |
Pod label
名称 |
作用 |
取值 |
使用组件 |
---|---|---|---|
ring-controller.atlas |
标识atlas的Pod |
|
Ascend Device Plugin |
vnpu-dvpp |
标记Pod设置的dvpp |
yes:该pod使用DVPP。 no:该pod不使用DVPP。 null:默认值。不关注是否使用DVPP。 |
Volcano |
vnpu-level |
标记选择虚拟化实例模板的等级。 |
low:低配,默认值。 high:性能优先。 |
Volcano |
version |
标记Pod的版本 |
字符串 |
Ascend Operator |
volcano.sh/job-name |
标记Pod对应vcjob名称 |
字符串 |
Volcano |
volcano.sh/job-namespace |
标记Pod对应vcjob名称空间 |
字符串 |
Volcano |
volcano.sh/queue-name |
标记Pod对应queue名称 |
字符串 |
Volcano |
volcano.sh/task-spec |
标记Pod对应task名称 |
字符串 |
Volcano |
fault-type |
标记Pod故障处理策略 |
|
Volcano |
deploy-name |
标记Pod对应的deployment名称 |
字符串 |
Ascend Operator |
group-name |
标记Pod对应的acjob的group名称 |
mindxdl.gitee.com |
Volcano、Ascend Operator |
job-name |
标记Pod对应的acjob名称 |
字符串 |
Ascend Operator |
replica-index |
标记Pod序号(后续将删除) |
[0-{pod数量-1}] |
Ascend Operator |
replica-type |
标记Pod类型(后续将删除) |
|
Ascend Operator |
training.kubeflow.org/job-name |
标记Pod对应的acjob名称 |
字符串 |
Ascend Operator |
training.kubeflow.org/job-role |
标记Pod类型 |
master |
Ascend Operator |
training.kubeflow.org/operator-name |
标记创建Pod的operator名称 |
ascendjob-controller |
Ascend Operator |
training.kubeflow.org/replica-index |
标记Pod序号 |
[0-{pod数量-1}] |
Ascend Operator |
training.kubeflow.org/replica-type |
标记Pod类型 |
|
Ascend Operator |
Pod annotation
名称 |
作用 |
取值 |
使用组件 |
---|---|---|---|
ascend.kubectl.kubernetes.io/ascend-910-configuration |
Ascend Operator生成hccl.json的数据来源 |
字符串map |
Ascend Device Plugin、 Ascend Operator |
super_pod_id |
为Ascend Operator提供超节点ID信息 |
数字 |
Ascend Operator |
hccl/rankIndex |
断点续训中保持原rankId的依据 |
[0,1000] |
Volcano、Ascend Operator |
distributed-job |
标记训练任务类型 |
|
Volcano |
huawei.com/Ascend910 |
Ascend Device Plugin为Pod分配芯片的依据。 |
字符串 |
Volcano、Ascend Device Plugin |
huawei.com/AscendReal |
Ascend Device Plugin为Pod实际分配芯片的记录。 |
字符串 |
Volcano、Ascend Device Plugin |
huawei.com/npu-core |
标记Pod使用的npu卡物理ID及切分模板。 |
字符串 |
Volcano、Ascend Device Plugin |
huawei.com/kltDev |
kubelet为Pod分配芯片的记录。 |
字符串 |
Ascend Device Plugin |
predicate-time |
Ascend Device Plugin为Pod分配芯片的顺序依据。 |
字符串 |
Volcano、Ascend Device Plugin |
isSharedTor |
标记Pod对应的交换机属性 |
整数 |
Volcano |
isHealthy |
标记Pod对应的交换机状态 |
整数 |
Volcano |
scheduling.k8s.io/group-name |
标记Pod对应podGroup名称 |
字符串 |
Volcano |
volcano.sh/job-name |
标记Pod对应的vcjob名称 |
字符串 |
Volcano |
volcano.sh/job-version |
标记Pod对应的vcjob版本 |
字符串 |
Volcano |
volcano.sh/queue-name |
标记Pod对应的queue版本 |
字符串 |
Volcano |
volcano.sh/task-spec |
标记Pod对应task名称 |
字符串 |
Volcano |
volcano.sh/template-uid |
标记Pod对应pod-template名称 |
字符串 |
Volcano |
sharedTorIp |
标记任务使用的共享交换机信息 |
字符串 |
Volcano、ClusterD |
fault-job-delete |
标记job的rank信息 |
字符串 |
Volcano |
mind-cluster/hardware-type=800I-A2-xx |
xx表示当前节点的片上内存,例如mind-cluster/hardware-type=800I-A2-64G |
字符串 |
Volcano |
Node annotation
名称 |
作用 |
取值 |
使用组件 |
---|---|---|---|
baseDeviceInfos |
展示芯片的基础信息,例如IP,供Volcano调度时使用 |
字符串 |
Volcano |
product-serial-number |
NodeD通过ipmi接口获取节点SN号并写入annotation,供ClusterD接收公共故障时使用。 |
字符串 |
ClusterD |
superPodID |
表示该节点所属的超节点的ID。 |
字符串 |
ClusterD |
ResetInfo |
展示Ascend Device Plugin自动复位失败的芯片信息,如芯片的物理ID、Card ID等。 |
字符串 |
Ascend Device Plugin |
ResetInfo的内容格式如下所示。
{ "ThirdPartyResetDevs": [ { "CardId": 0, "DeviceId": 0, "AssociatedCardId": 4, "PhyID": 0, "LogicID": 0 } ], "ManualResetDevs": [ { "CardId": 1, "DeviceId": 0, "AssociatedCardId": 5, "PhyID": 2, "LogicID": 2 } ] }
K8s的ServiceAccount
账号名 |
说明 |
---|---|
volcano-controllers |
开源volcano的controller组件在K8s中创建的用户。 |
volcano-scheduler |
开源volcano的scheduler组件在K8s中创建的用户。 |
ascend-device-plugin-sa-910 |
用yaml启动服务,将会在K8s中创建该用户,不同型号的设备使用的账号名不同。 |
ascend-device-plugin-sa-310p |
|
ascend-device-plugin-sa-310 |
|
ascend-operator-manager |
用yaml启动服务,将会在K8s中创建该用户,如:ascend-operator-v{version}.yaml。 |
resilience-controller |
建议安全加固启动,使用带without-token的yaml启动服务,在K8s中创建并使用resilience-controller账号,同时为该账号授予适当权限。 |
noded |
用yaml启动服务,将会在K8s中创建该用户,如:noded-v{version}.yaml。 |
clusterd |
用yaml启动服务,将会在K8s中创建该用户,如:clusterd-v{version}.yaml。 |
default |
MindCluster组件或开源volcano部署时会在K8s中自动创建的用户。 |