跑PyTorch训练时,set_device()失败,报“RuntimeError”,错误码“EL0003,error code 507000”
2024/02/21
1.2k
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 模型训练 | PyTorch | -- |
问题现象描述
报错现象如下所示:
RuntimeError: Initialize:/usr1/workspace/FPTA_Daily_Plugin_open_v1.8.1-3.0.rc3/Plugin/torch_npu/csrc/core/npu/sys_ctrl/npu_sys_ctrl.cpp:82 NPU error, error code is 507000 EL0003: The argument is invalid.
原因分析
- 可能由于set_device的卡被占用。
- 可能由于驱动或驱动版本有问题。
排查方法
- 使用其他卡测试,如:torch.npu.set_device("npu:3"),如果其他卡都不可用,可能是驱动版本不匹配。
- 使用npu-smi info命令查看驱动版本,检查CANN和驱动版本是否匹配,是否符合案例要求。
解决措施
- 换用其他卡训练。
- 更换版本匹配的驱动。