任务容器未挂载NPU
问题描述
进入任务容器中,使用如下命令查看,无内容。表明容器内没有挂载上NPU设备。
ls /dev/davinci*
原因
Ascend Device Plugin的启动参数“useAscendDocker”默认为true,需要配合Ascend Docker Runtime工具一起使用。
- 环境可能未安装Ascend Docker Runtime工具
- 已安装工具,但是未重启Docker服务。
解决方法
原因一:参考安装集群调度组件下的安装Ascend Docker Runtime章节,安装Ascend Docker Runtime工具,然后重启Docker服务,删除旧任务,再重新下发任务。
原因二:重启Docker服务,删除旧任务,再重新下发任务。
Ascend Docker Runtime能够主动将指定的NPU挂载到容器内,可通过如下命令查询Docker的配置。
docker info 2>&1 | grep "Default Runtime"
回显信息中有“ascend”表示Docker使用了Ascend Docker Runtime。示例如下。
Default Runtime: ascend
父主题: 训练任务