ConfigMap
功能说明
接收公共故障的ConfigMap信息,接入断点续训流程。
 - 实际的ConfigMap中的参数如果与定义的取值范围不相符,ClusterD会将故障信息丢弃,不作处理。
 - 通过ConfigMap或者gRPC接口注入的公共故障,所有节点的故障数量之和上限为5w。当故障数量超过5w时,再次注入故障,ClusterD会将故障信息丢弃,不作处理。
 - ConfigMap的Label需要为mc-consumer-publicfault=true,Data的key需要为PublicFault。
 
- 通过ConfigMap方式发送公共故障时,单次数据量不能超过1M大小,否则ConfigMap会更新失败。
 
参数说明
具体的参数说明见下表。
参数名称  | 
含义  | 
取值  | 
类型  | 
是否必填  | 
|---|---|---|---|---|
id  | 
消息唯一标识  | 
8到128个字符的字符串,支持大小写字母、数字、中划线(-)、下划线(_)和点(.),保证唯一性。  | 
string  | 
是  | 
timestamp  | 
消息发送的时间戳  | 
时间戳(单位:ms),13位数字,必须在2025-01-01T00:00:00Z之后。  | 
int64  | 
是  | 
version  | 
消息版本号  | 
取值为1.0。  | 
string  | 
是  | 
resource  | 
故障发送方  | 
默认配置为CCAE、fd-online、pingmesh、Netmind。  说明:  
  | 
string  | 
是  | 
faults  | 
故障内容  | 
切片,长度>0且≤100。  | 
[]object, fault  | 
是  | 
参数名称  | 
含义  | 
取值  | 
类型  | 
是否必填  | 
|---|---|---|---|---|
faultId  | 
故障实例id  | 
8到128个字符的字符串,支持大小写字母、数字、中划线(-)、下划线(_)和点(.),保证唯一性。  说明:  
同一个故障实例,faultId需要保证唯一性。  | 
string  | 
是  | 
faultType  | 
故障类型  | 
取值为NPU、Node、Network或Storage。 
  | 
string  | 
是  | 
faultCode  | 
故障码  | 
用户可以自定义,9位唯一即可。详细说明请参见故障码说明。  说明:  
  | 
string  | 
是  | 
faultTime  | 
故障产生时间  | 
时间戳(单位:ms),13位数字,必须在2025-01-01T00:00:00Z之后。  说明:  
  | 
int64  | 
是  | 
assertion  | 
故障状态  | 
取值为occur或recover。 
  | 
string  | 
是  | 
faultLocation  | 
故障定位信息  | 
故障源信息,长度≤10,map的key长度≤16,value长度≤128。 eg. key: npuIp, value: ip。  | 
map[string]string  | 
否  | 
influence  | 
故障影响的范围  | 
切片,长度>0且≤1000。  | 
[]object, faultInfo  | 
是  | 
description  | 
故障描述  | 
0~512个字符。包含非空白字符和空格。  | 
string  | 
否  | 
参数名称  | 
含义  | 
取值  | 
类型  | 
是否必填  | 
|---|---|---|---|---|
nodeName  | 
节点名称。 可通过kubectl get nodes -owide命令查询。  | 
1到253个字符的字符串,支持小写字母、数字、中划线(-)和点(.),必须以字母数字开头和结尾。该字段存在时,就不使用nodeSN。  说明:  
如果节点名称不存在于K8s集群中,ClusterD不会提示节点名称错误,但是不会将该故障信息写入cluster-info-device-cm。  | 
string  | 
二选一  | 
nodeSN  | 
节点SN号  | 
节点的SN号。取值为NodeD写入的节点annotation,key为product-serial-number。  说明:  
若使用该字段而不使用nodeName,需要提前安装NodeD组件。  | 
string  | 
|
deviceIds  | 
芯片物理ID  | 
长度(0, 32],每个元素的取值[0, 32),且不允许重复。  说明:  
  | 
[]int32  | 
是  |