故障处理
Container Manager在RestartRequest和RestartBusiness故障持续60秒,或者获取到FreeRestartNPU和RestartNPU类型故障时,将故障芯片和关联芯片放入待复位缓存中。Container Manager会周期性尝试复位待复位缓存中的芯片,当芯片满足以下条件时,Container Manager调用DCMI接口执行芯片复位操作。
- 当前故障芯片和关联芯片上不存在任务进程。
- 当前故障芯片和关联芯片没有被正在运行的容器占用。
- 当前故障芯片或关联芯片依然存在任意最高为RestartRequest、RestartBusiness、FreeRestartNPU、RestartNPU四种级别的故障。
- Container Manager在周期内成功执行了芯片复位并获取到芯片成功启动的结果后,故障复位功能会暂停30秒等待芯片初始化完成。
- 芯片连续复位失败3次以后,Container Manager不再尝试复位此芯片。
父主题: NPU硬件故障检测与恢复