开启watchdog模型运行时出现coredump,报错terminate called after throwing an instance of ‘std::runtime_error’
2025/03/18
26
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 模型训练 | PyTorch | -- |
问题现象描述
开启watchdog模型运行时报错terminate called after throwing an instance of ‘std::runtime_error’。
原因分析
开启watchdog子线程,watchdog检测到异常,抛出异常,主线程coredump。
解决措施
根据watchdog抛出的异常和plog日志分析问题根因。