昇腾社区首页
中文
注册

mindx_elastic.torch_exception_module.save_final_ckpt(func)

功能说明

该函数是作为装饰器使用,用于捕捉训练函数内发生的异常,为训练进程提供异常退出时保存临终ckpt能力,防止处于超时等待状态时的进程无法保存临终ckpt。

参数说明

func (函数对象)- 指定训练函数。

使用示例

from mindx_elastic.torch_exception_module import save_final_ckpt
...
@save_final_ckpt
def train(...):
    ...
...