CANN版本不一致,HCCL返回错误码EI0008
问题现象
常见于通信建链阶段,屏显日志报错:EI0008: The CANN versions are inconsistent。
1 2 3 4 5 6 | ERROR : GeOp5_0GEOP::::DoRunAsync Failed Error Message is : EI0008: The CANN versions are inconsistent: tag [HcomAllReduce_6629421139219749105_0], local_version [1.83.T10.0.B206], remote_version [1.83.T10.0.B207] Solution: Install the same CANN version. TraceBack (most recent call last): Call ops_kernel_info_store loadTask fail[FUNC:Distribute][FILE:hccl_task_info.cc][LINE:213] |
原因分析
集合通信建链时会校验本端与对端Rank的CANN版本一致性,如果CANN版本不一致,HCCL会返回错误并打印错误码EI0008。
解决方法
确认不同服务器上安装的CANN软件版本是否一致,若不一致则需要安装一致的版本。
- 在plog日志(INFO级别)目录下查找关键字“CannVersion”,确认各节点的CANN软件版本,命令示例如下:
grep -r "CannVersion"
- 重新安装一致的CANN软件版本。
父主题: HCCL常见问题总结