mindx_elastic.recover_manager.DLRecoverManager
功能说明
DLRecoverManager类提供恢复训练的接口片上内存,提供进程级恢复和片上内存故障的进程级在线恢复相关接口。客户端以python包形式import到客户端代码中。

DLRecoverManager类提供的接口可能抛出Exception异常,调用方自行捕获异常、处理异常。
__init__(self, info: pb.ClientInfo, server_addr: str, secure_conn: bool = True, cert_path: str = "")
构造DLRecoverManager,用于后续的通信。
参数 |
类型 |
说明 |
---|---|---|
info |
pb.ClientInfo |
info.ip str类型,客户端ip(暂未使用,预留) info.port: str类型,客服端端口(暂未使用,预留) info.taskId: str类型 任务ID info.role: str类型 客户端角色 |
server_addr |
str |
服务端地址 |
secure_conn |
bool |
是否开启安全连接,默认为True。 |
cert_path |
str |
安全证书地址,默认为""。 |
register(self, request: pb.ClientInfo) -> pb.Status
注册客户端,服务端为request指定的任务做恢复前的初始化操作。
参数 |
类型 |
说明 |
---|---|---|
request |
pb.ClientInfo |
request.ip: str类型,客户端ip(暂未使用,预留) request.port: str类型,客服端端口(暂未使用,预留) request.taskId: str类型 任务ID request.role: str类型 客户端角色 |
返回值类型 |
说明 |
---|---|
Status |
Status.info:str类型,返回信息描述 Status.code: int类型,0表示成功,其他值表示失败。关于返回码的详细说明请参见返回码说明。 |
start_subscribe(self)
客户端和服务端建立grpc长链接,服务端将通过该长链接与客户端单向通信。比如发生故障时,服务端给客户端发送停止训练、全局故障rank信息等。
registry_func_for_action(self, action: str, func: Callable[..., Any]) -> bool
客户端注册动作对应的回调函数。当服务端给客户端下发动作信号时,执行客户端注册的回调函数。服务端会客户端下发的动作列表有:stop_train, on_global_rank, change_strategy,save_and_exit(暂未使用)。
参数 |
类型 |
说明 |
---|---|---|
action |
str |
要注册的动作名称 |
func |
Callable |
动作对应的函数 |
返回值类型 |
说明 |
---|---|
bool |
是否注册成功 |