HCCLComm初始化失败
问题现象
执行HCCL Test测试工具时,报“This is an error in init_hcclComm”的错误,如下图所示:
原因分析
某些卡被进程占用,导致无法使用HCCL Test工具进行测试。
解决步骤
- 执行“npu-smi info”命令查看卡的占用情况。
某些场景下,npu-smi info未显示卡被占用,但片上内存使用非常高,此种情况下,也会引起HCCL Test测试工具执行失败。
- 确认被占用卡上的进程释放后,再重新执行HCCL Test测试工具。通常停掉训练任务脚本,会进入资源释放销毁释放流程,可在Host侧执行如下命令,确认进程完全退出后,再执行测试工具。
for i in {0..7}; do hccn_tool -i $i -process -g ; done
父主题: HCCL Test常见问题总结