K8s原生对象说明
Service label
名称  | 
作用  | 
取值  | 
使用组件  | 
|---|---|---|---|
group-name  | 
标记Pod对应的acjob的group名称  | 
mindxdl.gitee.com  | 
Volcano、Ascend Operator  | 
job-name  | 
标记Pod对应的acjob名称  | 
字符串  | 
Ascend Operator  | 
replica-index  | 
标记Pod序号(后续将删除)  | 
[0-{pod数量-1}]  | 
Ascend Operator  | 
replica-type  | 
标记Pod类型(后续将删除)  | 
  | 
Ascend Operator  | 
training.kubeflow.org/job-name  | 
标记Pod对应的acjob名称  | 
字符串  | 
Ascend Operator  | 
training.kubeflow.org/operator-name  | 
标记创建Pod的operator名称  | 
ascendjob-controller  | 
Ascend Operator  | 
training.kubeflow.org/replica-index  | 
标记Pod序号  | 
[0-{pod数量-1}]  | 
Ascend Operator  | 
training.kubeflow.org/replica-type  | 
标记Pod类型  | 
  | 
Ascend Operator  | 
node label
node label名称  | 
作用  | 
取值  | 
使用组件  | 
|---|---|---|---|
accelerator  | 
标识节点的处理芯片  | 
huawei-Ascend910、huawei-Ascend310、huawei-Ascend310P  | 
Ascend Device Plugin  | 
host-arch  | 
标识节点的CPU架构  | 
huawei-x86;huawei-arm  | 
Volcano  | 
masterselector  | 
标识MindCluster的管理节点  | 
dls-master-node  | 
Volcano、Ascend Operator、Resilience Controller、ClusterD  | 
node.kubernetes.io/npu.chip.name  | 
上报当前芯片的具体类型  | 
  | 
Ascend Device Plugin  说明:  
芯片型号的数值可通过npu-smi info命令查询,返回的“Name”字段对应信息为芯片型号,下文的{xxx}即取“910”字符作为芯片型号数值。  | 
nodeDEnable  | 
NodeD节点启动的开关  | 
on  | 
Volcano、Resilience Controller  说明:  
  | 
workerselector  | 
标识MindCluster的计算节点  | 
dls-worker-node  | 
Ascend Device Plugin、NodeD、NPU Exporter  | 
accelerator-type  | 
标识Atlas服务器类型  | 
  | 
Ascend Device Plugin、Volcano  | 
servertype  | 
Atlas 200I SoC A1 核心板标识  | 
  | 
Volcano、Ascend Device Plugin  | 
huawei.com/Ascend910-Recover  | 
Atlas 训练系列产品故障恢复标识  | 
故障芯片ID  | 
Ascend Device Plugin  | 
huawei.com/Ascend910-NetworkRecover  | 
Atlas 训练系列产品网络故障恢复标识  | 
故障芯片ID  | 
Ascend Device Plugin  | 
infer-card-type  | 
由Ascend Device Plugin写入,表明节点推理卡类型。  | 
card-300i-duo  | 
Volcano  | 
mind-cluster/npu-chip-memory  | 
芯片片上内存  | 
mind-cluster/npu-chip-memory=64G  | 
Volcano、Ascend Device Plugin  | 
Pod label
名称  | 
作用  | 
取值  | 
使用组件  | 
|---|---|---|---|
ring-controller.atlas  | 
标识Atlas的Pod  | 
  | 
Ascend Device Plugin  | 
vnpu-dvpp  | 
标记Pod设置的dvpp  | 
yes:该pod使用DVPP。 no:该pod不使用DVPP。 null:默认值。不关注是否使用DVPP。  | 
Volcano  | 
vnpu-level  | 
标记选择虚拟化实例模板的等级。  | 
low:低配,默认值。 high:性能优先。  | 
Volcano  | 
version  | 
标记Pod的版本  | 
字符串  | 
Ascend Operator  | 
volcano.sh/job-name  | 
标记Pod对应vcjob名称  | 
字符串  | 
Volcano  | 
volcano.sh/job-namespace  | 
标记Pod对应vcjob名称空间  | 
字符串  | 
Volcano  | 
volcano.sh/queue-name  | 
标记Pod对应queue名称  | 
字符串  | 
Volcano  | 
volcano.sh/task-spec  | 
标记Pod对应task名称  | 
字符串  | 
Volcano  | 
fault-type  | 
标记Pod故障处理策略  | 
  | 
Volcano  | 
deploy-name  | 
标记Pod对应的deployment名称  | 
字符串  | 
Ascend Operator  | 
group-name  | 
标记Pod对应的acjob的group名称  | 
mindxdl.gitee.com  | 
Volcano、Ascend Operator  | 
job-name  | 
标记Pod对应的acjob名称  | 
字符串  | 
Ascend Operator  | 
replica-index  | 
标记Pod序号(后续将删除)  | 
[0-{pod数量-1}]  | 
Ascend Operator  | 
replica-type  | 
标记Pod类型(后续将删除)  | 
  | 
Ascend Operator  | 
training.kubeflow.org/job-name  | 
标记Pod对应的acjob名称  | 
字符串  | 
Ascend Operator  | 
training.kubeflow.org/job-role  | 
标记Pod类型  | 
master  | 
Ascend Operator  | 
training.kubeflow.org/operator-name  | 
标记创建Pod的operator名称  | 
ascendjob-controller  | 
Ascend Operator  | 
training.kubeflow.org/replica-index  | 
标记Pod序号  | 
[0-{pod数量-1}]  | 
Ascend Operator  | 
training.kubeflow.org/replica-type  | 
标记Pod类型  | 
  | 
Ascend Operator  | 
Pod annotation
名称  | 
作用  | 
取值  | 
使用组件  | 
|---|---|---|---|
ascend.kubectl.kubernetes.io/ascend-910-configuration  | 
Ascend Operator生成hccl.json的数据来源  | 
字符串map  | 
Ascend Device Plugin、 Ascend Operator  | 
super_pod_id  | 
为Ascend Operator提供超节点ID信息  | 
数字  | 
Ascend Operator  | 
hccl/rankIndex  | 
断点续训中保持原rankId的依据  | 
[0,1000]  | 
Volcano、Ascend Operator  | 
distributed-job  | 
标记训练任务类型  | 
  | 
Volcano  | 
huawei.com/Ascend910  | 
Ascend Device Plugin为Pod分配芯片的依据。  | 
字符串  | 
Volcano、Ascend Device Plugin  | 
huawei.com/AscendReal  | 
Ascend Device Plugin为Pod实际分配芯片的记录。  | 
字符串  | 
Volcano、Ascend Device Plugin  | 
huawei.com/npu-core  | 
标记Pod使用的npu卡物理ID及切分模板。  | 
字符串  | 
Volcano、Ascend Device Plugin  | 
huawei.com/kltDev  | 
kubelet为Pod分配芯片的记录。  | 
字符串  | 
Ascend Device Plugin  | 
predicate-time  | 
Ascend Device Plugin为Pod分配芯片的顺序依据。  | 
字符串  | 
Volcano、Ascend Device Plugin  | 
isSharedTor  | 
标记Pod对应的交换机属性  | 
整数  | 
Volcano  | 
isHealthy  | 
标记Pod对应的交换机状态  | 
整数  | 
Volcano  | 
scheduling.k8s.io/group-name  | 
标记Pod对应podGroup名称  | 
字符串  | 
Volcano  | 
volcano.sh/job-name  | 
标记Pod对应的vcjob名称  | 
字符串  | 
Volcano  | 
volcano.sh/job-version  | 
标记Pod对应的vcjob版本  | 
字符串  | 
Volcano  | 
volcano.sh/queue-name  | 
标记Pod对应的queue版本  | 
字符串  | 
Volcano  | 
volcano.sh/task-spec  | 
标记Pod对应task名称  | 
字符串  | 
Volcano  | 
volcano.sh/template-uid  | 
标记Pod对应pod-template名称  | 
字符串  | 
Volcano  | 
sharedTorIp  | 
标记任务使用的共享交换机信息  | 
字符串  | 
Volcano、ClusterD  | 
fault-job-delete  | 
标记job的rank信息  | 
字符串  | 
Volcano  | 
mind-cluster/hardware-type=800I-A2-xx  | 
xx表示当前节点的片上内存,例如mind-cluster/hardware-type=800I-A2-64G  | 
字符串  | 
Volcano  | 
Node annotation
名称  | 
作用  | 
取值  | 
使用组件  | 
|---|---|---|---|
baseDeviceInfos  | 
展示芯片的基础信息,例如IP,供Volcano调度时使用  | 
字符串  | 
Volcano  | 
product-serial-number  | 
NodeD通过ipmi接口获取节点SN号并写入annotation,供ClusterD接收公共故障时使用。  | 
字符串  | 
ClusterD  | 
superPodID  | 
表示该节点所属的超节点的ID。  | 
字符串  | 
ClusterD  | 
ResetInfo  | 
展示Ascend Device Plugin自动复位失败的芯片信息,如芯片的物理ID、Card ID等。  | 
字符串  | 
Ascend Device Plugin  | 
ResetInfo的内容格式如下所示。
{
    "ThirdPartyResetDevs": [
        {
            "CardId": 0,
            "DeviceId": 0,
            "AssociatedCardId": 4,
            "PhyID": 0,
            "LogicID": 0
        }
    ],
    "ManualResetDevs": [
        {
            "CardId": 1,
            "DeviceId": 0,
            "AssociatedCardId": 5,
            "PhyID": 2,
            "LogicID": 2
        }
    ]
}
K8s的ServiceAccount
账号名  | 
说明  | 
|---|---|
volcano-controllers  | 
开源Volcano的controller组件在K8s中创建的用户。  | 
volcano-scheduler  | 
开源Volcano的scheduler组件在K8s中创建的用户。  | 
ascend-device-plugin-sa-910  | 
用YAML启动服务,将会在K8s中创建该用户,不同型号的设备使用的账号名不同。  | 
ascend-device-plugin-sa-310p  | 
|
ascend-device-plugin-sa-310  | 
|
ascend-operator-manager  | 
用YAML启动服务,将会在K8s中创建该用户,如:ascend-operator-v{version}.yaml。  | 
resilience-controller  | 
建议安全加固启动,使用带without-token的YAML启动服务,在K8s中创建并使用resilience-controller账号,同时为该账号授予适当权限。  | 
noded  | 
用YAML启动服务,将会在K8s中创建该用户,如:noded-v{version}.yaml。  | 
clusterd  | 
用YAML启动服务,将会在K8s中创建该用户,如:clusterd-v{version}.yaml。  | 
default  | 
MindCluster组件或开源Volcano部署时会在K8s中自动创建的用户。  |