昇腾社区首页
中文
注册

GetFaultMsgSignal

功能说明

本接口为故障查询接口。功能主要是接收客户端查询集群、任务故障信息的请求。

该接口每秒最多可查询10次,超过10次时会将请求加入等待队列中。总等待数超过50时,再次发送请求会被拒绝。

函数原型

rpc GetFaultMsgSignal(ClientInfo) returns(FaultQueryResult){}

输入参数说明

参数

类型(Protobuf定义)

说明

ClientInfo

message ClientInfo{

string jobId = 1;

string role = 2;

}

ClientInfo.jobId:任务ID。当jobId传入空值时返回集群范围内的故障信息。若jobId不传入空值,则jobId的合理长度为[8,128]个字符,且不能包含汉字。

ClientInfo.role:客户端角色。

说明:
  • 传入jobId为空时,查询的结果为当前集群的全量故障。
  • 传入jobId不为空,查询结果为任务所属节点的故障。

返回值说明

返回值

类型(Protobuf定义)

说明

FaultQueryResult

message FaultQueryResult{

int32 code = 1;

string info = 2;

FaultMsgSignal faultSignal =3;

}

code本次查询的返回码。

  • 200:查询正常返回。
  • 429:服务端限流。
  • 500:服务端错误。

info本次查询结果的描述信息

faultSignal:故障信息结构体

FaultMsgSignal.uuid:消息ID

FaultMsgSignal.jobId:任务ID,-1代表集群

FaultMsgSignal.signalType:消息类型,“fault”代表故障发生,“normal”代表无故障或故障恢复。

FaultMsgSignal.nodeFaultInfo:节点故障信息

NodeFaultInfo.nodeName:故障节点名称

NodeFaultInfo.nodeIP:节点IP

NodeFaultInfo.nodeSN:节点SN号

NodeFaultInfo.faultLevel:故障类型,包括“Healthy”、“SubHealthy”和“UnHealthy”,设置为DeviceFaultInfo.faultLevel中最严重的级别。

NodeFaultInfo.faultDevice:设备故障信息

DeviceFaultInfo.deviceId:设备ID

DeviceFaultInfo.deviceType:设备类型名,包括“Node”、“NPU”、“Storage”、“CPU”、“Network”等。

DeviceFaultInfo.faultCodes:故障码列表

DeviceFaultInfo.faultLevel:故障类型,包括“Healthy”、“SubHealthy”和“UnHealthy”,严重级别依次递增。

DeviceFaultInfo.faultType:故障子系统类型,预留字段

DeviceFaultInfo.faultReason:故障原因,预留字段