下载
中文
注册
算力切分场景下npu-smi命令无法使用

算力切分场景下npu-smi命令无法使用

2025/05/16

77

暂无评分
我要评分

问题信息

问题来源产品大类产品子类关键字
现网安装部署驱动固件npu-smi

问题现象描述

在Atlas 300I Pro 推理卡、Atlas 300V Pro 视频解析卡、Atlas 300I Duo 推理卡、Atlas 300V 视频解析卡、Atlas 300T 训练卡(型号:9000)、Atlas 300T Pro 训练卡(型号:9000)、Atlas 800 训练服务器(型号:9000)、Atlas 800 训练服务器(型号:9010)、Atlas 900 计算节点、Atlas 900T RAK 计算节点产品的算力切分场景下,容器内使用切分后的设备运行推理或训练业务,执行Ctrl+Z挂起业务进程后,概率性出现npu-smi相关命令无法使用,新业务无法调度,返回失败。报错如下。

图1 报错信息 放大

原因分析

业务进程调用内核态相关操作,挂起后CPU调度异常导致内核处理无法完成。

解决措施

  • 使用bg命令重新调度挂起的进程。
  • 使用kill命令杀掉挂起的进程即可恢复正常。

本页内容