昇腾社区首页
中文
注册

mindx_elastic.restore_module.restore_manager.restore_manager.RestoreCheckpoint

restore_exception_checkpoint(CheckpointRestoreParas)

对于混合并行的训练任务,加载基于恢复策略的临终checkpoint。

表1 输入参数CheckpointRestoreParas结构

参数

类型

说明

args_param

NameSpace

训练任务参数配置。

sink_size

int

下沉规模。

dataset

mindspore.dataset MindSpore数据类型

训练所用数据集。

model

mindspore.train.model MindSpore训练类型

训练模型。

network

mindspore.nn.cell MindSpore Cell类型

训练所用模型网络。

epoch

int

训练轮次。

表2 返回值

参数

类型

说明

bool

boolean

训练恢复加载checkpoint是否成功。

使用样例如下:

from mindx_elastic.restore_module.restore_manager.restore_checkpoint import RestoreCheckpoint, CheckpointRestoreParas
res_ckpt = RestoreCheckpoint()
input_checkpoint_paras = CheckpointRestoreParas(args_opt, args_opt.sink_size, ds, model,pangu_alpha_with_grads, epoch=actual_epoch_num)
flag = res_ckpt.restore_exception_checkpoint(input_checkpoint_paras)