昇腾社区首页
中文
注册

ReportStopComplete

功能说明

接收客户端上报暂停训练进程是否成功。

函数原型

rpc ReportStopComplete(StopCompleteRequest) returns (Status){}

输入参数说明

参数

类型(Protobuf定义)

说明

StopCompleteRequest

message StopCompleteRequest{

string jobId = 1;

Status status = 2;

repeated FaultRank faultRankIds = 3;

}

StopCompleteRequest.jobId:任务ID。

StopCompleteRequest.status.code:返回码,OK表示暂停训练成功,其他值表示暂停训练失败。

StopCompleteRequest.status.info:返回信息描述。

StopCompleteRequest.faultRankIds:故障芯片全局故障Rank列表。FaultRank是一组包含故障信息的键值对,由rankId(全局Rank ID)和faultType(故障类型)组成。faultType取值为0时,代表片上内存故障。取值为1时,表示其他故障。

返回值说明

返回值

类型(Protobuf定义)

说明

Status

message Status{

int32 code = 1;

string info = 2;

}

Status.code:返回码。

  • 取值为0:表示故障恢复流程正常
  • 其他值:表示故障恢复流程异常,并触发重调度。

Status.info返回信息描述。