Container Manager
应用场景
在无K8s的场景下,推理或者训练进程异常后,无法通过Volcano和Ascend Device Plugin停止并重新调度业务容器、隔离故障节点、复位NPU芯片。MindCluster提供了Container Manager组件,用于无K8s场景下的容器管理和芯片复位功能。
组件功能
- 从驱动中订阅芯片故障信息,同时将芯片状态和具体故障信息存入缓存,用于后续的容器管理和芯片复位功能。
- 可配置故障的处理级别。
- 若故障芯片处于空闲状态,且重启后可恢复,对芯片执行热复位。
- 若故障芯片当前正在被容器使用,根据用户的启动配置,对占用故障芯片的容器执行停止操作,在故障芯片复位成功后,重新将容器拉起。
组件上下游依赖
图1 组件上下游依赖


- 从DCMI中获取芯片的类型、数量、健康状态信息。
- 向DCMI下发芯片复位命令。
- 从容器运行时Docker或者Containerd中获取当前运行中的容器和芯片挂载信息。
- 向容器运行时下发容器停止、启动命令。
父主题: 组件介绍