算力切分场景下npu-smi命令无法使用
2025/05/16
77
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
现网 | 安装部署 | 驱动固件 | npu-smi |
问题现象描述
在Atlas 300I Pro 推理卡、Atlas 300V Pro 视频解析卡、Atlas 300I Duo 推理卡、Atlas 300V 视频解析卡、Atlas 300T 训练卡(型号:9000)、Atlas 300T Pro 训练卡(型号:9000)、Atlas 800 训练服务器(型号:9000)、Atlas 800 训练服务器(型号:9010)、Atlas 900 计算节点、Atlas 900T RAK 计算节点产品的算力切分场景下,容器内使用切分后的设备运行推理或训练业务,执行Ctrl+Z挂起业务进程后,概率性出现npu-smi相关命令无法使用,新业务无法调度,返回失败。报错如下。
图1 报错信息

原因分析
业务进程调用内核态相关操作,挂起后CPU调度异常导致内核处理无法完成。
解决措施
- 使用bg命令重新调度挂起的进程。
- 使用kill命令杀掉挂起的进程即可恢复正常。