GetFaultMsgSignal
功能说明
本接口为故障查询接口。功能主要是接收客户端查询集群、任务故障信息的请求。

该接口每秒最多可查询10次,超过10次时会将请求加入等待队列中。总等待数超过50时,再次发送请求会被拒绝。
函数原型
rpc GetFaultMsgSignal(ClientInfo) returns(FaultQueryResult){}
输入参数说明
参数 |
类型(Protobuf定义) |
说明 |
---|---|---|
ClientInfo |
message ClientInfo{ string jobId = 1; string role = 2; } |
ClientInfo.jobId:任务ID。当jobId传入空值时返回集群范围内的故障信息。若jobId不传入空值,则jobId的合理长度为[8,128]个字符,且不能包含汉字。 ClientInfo.role:客户端角色。 说明:
|
返回值说明
返回值 |
类型(Protobuf定义) |
说明 |
---|---|---|
FaultQueryResult |
message FaultQueryResult{ int32 code = 1; string info = 2; FaultMsgSignal faultSignal =3; } |
code:本次查询的返回码。
info:本次查询结果的描述信息 faultSignal:故障信息结构体 FaultMsgSignal.uuid:消息ID FaultMsgSignal.jobId:任务ID,-1代表集群 FaultMsgSignal.signalType:消息类型,“fault”代表故障发生,“normal”代表无故障或故障恢复。 FaultMsgSignal.nodeFaultInfo:节点故障信息 NodeFaultInfo.nodeName:故障节点名称 NodeFaultInfo.nodeIP:节点IP NodeFaultInfo.nodeSN:节点SN号 NodeFaultInfo.faultLevel:故障类型,包括“Healthy”、“SubHealthy”和“UnHealthy”,设置为DeviceFaultInfo.faultLevel中最严重的级别。 NodeFaultInfo.faultDevice:设备故障信息 DeviceFaultInfo.deviceId:设备ID DeviceFaultInfo.deviceType:设备类型名,包括“Node”、“NPU”、“Storage”、“CPU”、“Network”等。 DeviceFaultInfo.faultCodes:故障码列表 DeviceFaultInfo.faultLevel:故障类型,包括“Healthy”、“SubHealthy”和“UnHealthy”,严重级别依次递增。 DeviceFaultInfo.faultType:故障子系统类型,预留字段 DeviceFaultInfo.faultReason:故障原因,预留字段 |