ReportStopComplete

功能说明

接收客户端上报暂停训练进程是否成功。

函数原型

rpc ReportStopComplete(StopCompleteRequest) returns (Status){}

输入参数说明

参数

类型(protobuf定义)

说明

StopCompleteRequest

message StopCompleteRequest {

string jobId = 1;

Status status = 2;

repeated FaultRank faultRankIds = 3;

}

StopCompleteRequest .jobId:任务ID。

StopCompleteRequest .status.code:返回码,OK表示暂停训练成功,其他值表示暂停训练失败。

StopCompleteRequest .status.info:返回信息描述。

StopCompleteRequest .faultRankIds:故障芯片全局故障Rank列表。FaultRank是一组包含故障信息的键值对,由rankId(全局rank Id)和faultType(故障类型)组成。faultType取值为0时,代表片上内存故障。取值为1时,表示其他故障。

返回值说明

返回值

类型(protobuf定义)

说明

Status

message Status{

int32 code = 1;

string info =2;

}

Status.code:返回码。

  • 取值为0:表示故障恢复流程正常
  • 其他值:表示故障恢复流程异常,并触发重调度。

Status.info返回信息描述。