Atlas 800 9000多机多卡拉起训练作业时出现“cqe err status[12]”报错
2024/02/20
172
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 模型训练 | HCCL | cqe err status |
问题现象描述
问题现象:
用户有11个计算节点,只要使用2节点多机多卡拉起训练作业均失败,查看plog日志有notify wait timeout报错,如图2所示,同时有cqe err status[12](重传超次error)。并查看芯片状态、错包数、本端和对端link状态、交换机的端口、连通性等均没有问题。
图1报错信息1
图2报错信息2
原因分析
- 可能是交换机配置文件问题;
- 可能是该节点插入交换机的端口、线缆问题;
- 可能是配置device ip、ip rule、ip route错误。
解决措施
- 2节点跟3节点交换机端口互换,互换后3节点和8节点打流正常,3节点跟其他节点起任务能够成功,2节点跟其他节点起多机多卡训练依旧不行;打流方法可参见《Atlas 中心训练服务器 HCCN Tool 接口参考》的“RoCE带宽时延测试”章节。
- 查看2节点hccl文件/etc/hccn.conf后,发现无法正常拉起训练作业的节点少配置了两个ip rule和ip route,按正确的配置信息配置后问题解决,配置方法可参见
《Atlas 中心训练服务器 HCCN Tool 接口参考》的“添加ip rule规则”章节。
图1 /etc/hccn.conf正确显示图图2 /etc/hccn.conf错误显示图
本页内容