昇腾社区首页
中文
注册
开发者
下载

故障处理

Container Manager在RestartRequest和RestartBusiness故障持续60秒,或者获取到FreeRestartNPU和RestartNPU类型故障时,将故障芯片和关联芯片放入待复位缓存中。Container Manager会周期性尝试复位待复位缓存中的芯片,当芯片满足以下条件时,Container Manager调用DCMI接口执行芯片复位操作。

  • 当前故障芯片和关联芯片上不存在任务进程。
  • 当前故障芯片和关联芯片没有被正在运行的容器占用。
  • 当前故障芯片或关联芯片依然存在任意最高为RestartRequest、RestartBusiness、FreeRestartNPU、RestartNPU四种级别的故障。
  • Container Manager在周期内成功执行了芯片复位并获取到芯片成功启动的结果后,故障复位功能会暂停30秒等待芯片初始化完成。
  • 芯片连续复位失败3次以后,Container Manager不再尝试复位此芯片。