昇腾社区首页
中文
注册

HCCLComm初始化失败

问题现象

执行HCCL Test测试工具时,报“This is an error in init_hcclComm”的错误,如下图所示:

原因分析

某些卡被进程占用,导致无法使用HCCL Test工具进行测试。

解决步骤

  1. 执行“npu-smi info”命令查看卡的占用情况。

    某些场景下,npu-smi info未显示卡被占用,但片上内存使用非常高,此种情况下,也会引起HCCL Test测试工具执行失败。

  2. 确认被占用卡上的进程释放后,再重新执行HCCL Test测试工具。
    通常停掉训练任务脚本,会进入资源释放销毁释放流程,可在Host侧执行如下命令,确认进程完全退出后,再执行测试工具。
    for i in {0..7}; do hccn_tool -i $i -process -g ; done