下载
中文
注册
跑PyTorch训练时,set_device()失败,报“RuntimeError”,错误码“EL0003,error code 507000”

跑PyTorch训练时,set_device()失败,报“RuntimeError”,错误码“EL0003,error code 507000”

2024/02/21

1.2k

暂无评分
我要评分

问题信息

问题来源产品大类产品子类关键字
官方模型训练PyTorch--

问题现象描述

报错现象如下所示:

RuntimeError: Initialize:/usr1/workspace/FPTA_Daily_Plugin_open_v1.8.1-3.0.rc3/Plugin/torch_npu/csrc/core/npu/sys_ctrl/npu_sys_ctrl.cpp:82 NPU error, error code is 507000
EL0003: The argument is invalid.

原因分析

  • 可能由于set_device的卡被占用。
  • 可能由于驱动或驱动版本有问题。

排查方法

  1. 使用其他卡测试,如:torch.npu.set_device("npu:3"),如果其他卡都不可用,可能是驱动版本不匹配。
  2. 使用npu-smi info命令查看驱动版本,检查CANN和驱动版本是否匹配,是否符合案例要求。

解决措施

  1. 换用其他卡训练。
  2. 更换版本匹配的驱动。

本页内容