昇腾社区首页
中文
注册
开发者
下载

taskd.python.toolkit.recover_module.recover_manager. DLRecoverManager(内部接口,严禁调用)

功能说明

DLRecoverManager类提供进程级恢复和进程级在线恢复相关接口。客户端以Python包形式import到客户端代码中。

DLRecoverManager类提供的接口可能抛出Exception异常,调用方自行捕获异常、处理异常。

__init__(self, info: pb.ClientInfo, server_addr: str)

构造DLRecoverManager,用于后续的通信。

表1 参数说明

参数

类型

说明

info

pb.ClientInfo

info.jobId:str类型,任务ID。

info.role:str类型,客户端角色。

server_addr

str

服务端地址

register(self, request: pb.ClientInfo) -> pb.Status

注册客户端,服务端为request指定的任务做恢复前的初始化操作。

表2 参数说明

参数

类型

说明

request

pb.ClientInfo

request.jobId:str类型,任务ID。

request.role:str类型,客户端角色。

表3 返回值说明

返回值类型

说明

Status

Status.info:str类型,返回信息描述

Status.code:int类型,0表示成功,其他值表示失败。关于返回码的详细说明请参见返回码说明

def start_subscribe(self, frame: str = "pytorch")

客户端和服务端建立gRPC长链接,服务端将通过该长链接与客户端单向通信。比如发生故障时,服务端给客户端发送停止训练、全局故障rank信息等。

表4 参数说明

参数

类型

说明

frame

str

表示任务所使用的AI框架。

init_clusterd(self)

客户端初始化ClusterD服务端状态,保证后续任务正常注册、建立链接。