问题现象描述
执行kubectl logs -n vcjob mindx-dls-llama2-default-test-0 -f命令查看Pod日志,出现报错:npu is busy, check again。
原因分析
- 原因一:NPU被其他容器占用,检查发现确实有容器在占用。
- 原因二:其他容器挂载了NPU设备,虽然没有使用NPU,但是也会导致报错
解决措施
- 执行以下命令查询全部运行中的容器。
docker ps
- 执行以下命令查看指定容器是否已经正常挂载NPU。
docker inspect 容器ID | grep davinci
- 如果该指定的容器已挂载NPU,执行以下命令停止容器。
docker stop 容器ID
- 方案二:yaml文件中指定为特权模式,此方法适用于其他容器没有实际使用NPU但是只是挂载了NPU的场景。
在任务yaml中添加以下字段,示例如下。
