ConfigMap
功能说明
接收公共故障的ConfigMap信息,接入断点续训流程。

- 实际的ConfigMap中的参数如果与定义的取值范围不相符,ClusterD会将故障信息丢弃,不作处理。
- 通过ConfigMap或者gRPC接口注入的公共故障,所有节点的故障数量之和上限为5w。当故障数量超过5w时,再次注入故障,ClusterD会将故障信息丢弃,不作处理。
- ConfigMap的Label需要为mc-consumer-publicfault=true,Data的key需要为PublicFault。
- 通过ConfigMap方式发送公共故障时,单次数据量不能超过1M大小,否则ConfigMap会更新失败。
参数说明
具体的参数说明见下表。
参数名称 |
含义 |
取值 |
类型 |
是否必填 |
---|---|---|---|---|
id |
消息唯一标识 |
8到128个字符的字符串,支持大小写字母、数字、中划线(-)、下划线(_)和点(.),保证唯一性。 |
string |
是 |
timestamp |
消息发送的时间戳 |
时间戳(单位:ms),13位数字,必须在2025-01-01T00:00:00Z之后。 |
int64 |
是 |
version |
消息版本号 |
取值为1.0。 |
string |
是 |
resource |
故障发送方 |
默认配置为CCAE、fd-online、pingmesh、Netmind。 说明:
|
string |
是 |
faults |
故障内容 |
切片,长度>0且≤100。 |
[]object, fault |
是 |
参数名称 |
含义 |
取值 |
类型 |
是否必填 |
---|---|---|---|---|
faultId |
故障实例id |
8到128个字符的字符串,支持大小写字母、数字、中划线(-)、下划线(_)和点(.),保证唯一性。 说明:
同一个故障实例,faultId需要保证唯一性。 |
string |
是 |
faultType |
故障类型 |
取值为NPU、Node、Network或Storage。
|
string |
是 |
faultCode |
故障码 |
用户可以自定义,9位唯一即可。详细说明请参见故障码说明。 说明:
|
string |
是 |
faultTime |
故障产生时间 |
时间戳(单位:ms),13位数字,必须在2025-01-01T00:00:00Z之后。 说明:
|
int64 |
是 |
assertion |
故障状态 |
取值为occur或recover。
|
string |
是 |
faultLocation |
故障定位信息 |
故障源信息,长度≤10,map的key长度≤16,value长度≤128。 eg. key: npuIp, value: ip。 |
map[string]string |
否 |
influence |
故障影响的范围 |
切片,长度>0且≤1000。 |
[]object, faultInfo |
是 |
description |
故障描述 |
0~512个字符。包含非空白字符和空格。 |
string |
否 |
参数名称 |
含义 |
取值 |
类型 |
是否必填 |
---|---|---|---|---|
nodeName |
节点名称。 可通过kubectl get nodes -owide命令查询。 |
1到253个字符的字符串,支持小写字母、数字、中划线(-)和点(.),必须以字母数字开头和结尾。该字段存在时,就不使用nodeSN。 说明:
如果节点名称不存在于K8s集群中,ClusterD不会提示节点名称错误,但是不会将该故障信息写入cluster-info-device-cm。 |
string |
二选一 |
nodeSN |
节点SN号 |
节点的SN号。取值为NodeD写入的节点annotation,key为product-serial-number。 说明:
若使用该字段而不使用nodeName,需要提前安装NodeD组件。 |
string |
|
deviceIds |
芯片物理id |
长度(0, 32],每个元素的取值[0, 32),且不允许重复。 说明:
|
[]int32 |
是 |