昇腾故障案例详情页

在容器内执行om推理报acl.rt.set_device failed ret=507033错误

2023/06/05

574

暂无评分

问题信息

问题来源产品大类产品子类关键字
官方模型推理应用开发AscendCL507033、CANN、报错码

问题现象描述

在容器内执行OM推理时,推理失败。

报错现象:

图1 报acl.rt.set_device failed ret=507033错误

原因分析

可能原因:

  1. 环境异常,驱动有问题。
  2. 该ID芯片可能被其他容器占用。
  3. 使用算力切分后,不可使用整张卡。

排查方法

排查方法:

  1. 参考CANN软件安装指南,npu-smi info查看驱动是否正常。
  2. 使用docker inspect <container ID> |grep davinci可以查看容器占用了哪个芯片。
图2 查看容器芯片占用情况

解决措施

使用npu-smi info发现客户做了算力切分。但在起容器时使用的还是整张卡。销毁vNPU或者起容器时占用算力切分后的vNPU卡。

本页内容

该页面对您有帮助吗?
我要评分