ReportProcessFault

功能说明

接收客户端上报的故障芯片全局Rank信息。

函数原型

rpc ReportProcessFault(ProcessFaultRequest) returns (Status){}

输入参数说明

表1 protobuf参数说明

参数

类型(protobuf定义)

说明

ProcessFaultRequest

message ProcessFaultRequest{

string jobId = 1;

repeated FaultRank faultRankIds = 2;

}

ProcessFaultRequest.jobId:任务ID。

ProcessFaultRequest.faultRankIds:故障芯片全局Rank ID列表。FaultRank是故障信息的键值对,包含rankId(全局rank Id)和faultType(故障类型)。faultType取值为0时,代表片上内存故障。取值为1时,表示其他故障。

返回值说明

返回值

类型(protobuf定义)

说明

Status

message Status{

int32 code = 1;

string info =2;

}

Status.code:返回码。

  • 0:表示恢复流程正常。
  • 其他值:表示故障恢复流程异常,并触发重调度。

Status.info返回信息描述。