mindx_elastic.restore_module.restore_manager.restore_manager.RestoreCheckpoint
restore_exception_checkpoint(CheckpointRestoreParas)
对于混合并行的训练任务,加载基于恢复策略的临终checkpoint。
参数 |
类型 |
说明 |
---|---|---|
args_param |
NameSpace |
训练任务参数配置。 |
sink_size |
int |
下沉规模。 |
dataset |
mindspore.dataset MindSpore数据类型 |
训练所用数据集。 |
model |
mindspore.train.model MindSpore训练类型 |
训练模型。 |
network |
mindspore.nn.cell MindSpore Cell类型 |
训练所用模型网络。 |
epoch |
int |
训练轮次。 |
参数 |
类型 |
说明 |
---|---|---|
bool |
boolean |
训练恢复加载checkpoint是否成功。 |
使用样例如下:
from mindx_elastic.restore_module.restore_manager.restore_checkpoint import RestoreCheckpoint, CheckpointRestoreParas res_ckpt = RestoreCheckpoint() input_checkpoint_paras = CheckpointRestoreParas(args_opt, args_opt.sink_size, ds, model,pangu_alpha_with_grads, epoch=actual_epoch_num) flag = res_ckpt.restore_exception_checkpoint(input_checkpoint_paras)