mindx_elastic.torch_exception_module.save_final_ckpt(func) 功能说明该函数是作为装饰器使用,用于捕捉训练函数内发生的异常,为训练进程提供异常退出时保存临终ckpt能力,防止处于超时等待状态时的进程无法保存临终ckpt。 参数说明func (函数对象)- 指定训练函数。 使用示例from mindx_elastic.torch_exception_module import save_final_ckpt ... @save_final_ckpt def train(...): ... ... 父主题: Elastic-Agent(断点续训相关接口)