容器恢复
Container Manager在感知到芯片处于RestartRequest、RestartBusiness、FreeRestartNPU和RestartNPU类型故障时,会按照命令run的启动参数“-ctrStrategy”配置的重启策略,进行容器停止与恢复。具体的容器停止与恢复的范围请参见表1。
容器启停过程中,会发生状态变化:
- 当容器正在停止时,容器状态为pausing。当容器状态为pausing,且状态持续时间超过30s时,通过status命令查询到的容器描述信息为"Container pause may fail. Please manually delete the container"。
- 容器停止后,容器状态会变更为paused。当容器状态为paused,且状态持续时间超过400s时,通过status命令查询到的容器描述信息为"Device hot reset may fail. Please check of device status and recovery are required"。
- 当容器正在恢复时,容器状态为resuming。当容器状态为resuming,且状态持续时间超过30s时,通过status命令查询到的容器描述信息为"The device has been recovered, but the container failed to be resumed. Please manually pull up the container"。
- 其余时间,容器状态均为running,描述信息提示为“normal”,通过status命令查询到的容器状态开始时间为Container Manager感知到容器启动的时间或者容器恢复后的时间。
- Container Manager仅恢复由它本身停止的容器。
- 上述涉及到的容器启停过程中的容器状态,仅为Container Manager自定义,非容器运行时给出的官方定义。
- containerd场景,如果容器的task不存在,则会停止失败。
父主题: NPU硬件故障检测与恢复