进程异常退出后重新执行任务失败
适用场景
- 业务场景:DVPP、模型推理、应用/算子开发
- 适用处理器:Atlas 200/300/500 推理产品、Atlas 推理系列产品、Atlas 训练系列产品
- 处理器形态:EP、RC
现象描述
进程异常退出时,包括强行终止任务(如ctrl + c或者kill命令终止进程)的场景,然后重新启动任务失败。
可能原因
进程异常退出时,只能依赖系统检测到程序退出后才进行资源释放,释放资源最长需要一分钟的执行时间。如果在未执行完资源释放前执行新的任务,可能导致新执行的任务失败。
处理步骤
进程异常退出后需要等待一分钟,才能保证下一次重新执行任务成功。
父主题: 常见故障分析与处理