开启watchdog模型运行时出现coredump,报错terminate called after throwing an instance of ‘std::runtime_error’
2025/03/18
66
问题信息
| 问题来源 | 产品大类 | 产品子类 | 关键字 |
|---|---|---|---|
| 官方 | 模型训练 | PyTorch | -- |
问题现象描述
开启watchdog模型运行时报错terminate called after throwing an instance of ‘std::runtime_error’。

原因分析
开启watchdog子线程,watchdog检测到异常,抛出异常,主线程coredump。
解决措施
根据watchdog抛出的异常和plog日志分析问题根因。



