昇腾社区首页
中文
注册

已修复问题

问题一

问题描述

LinearParalleOperation支持 all2allv+gmm &gmm+all2allv 算子融合场景 存在算子精度不达标以及算子报EH9999错误

严重级别

严重

根因分析

代码逻辑存在错误,tiling校验错误导致部分极端场景存在精度错误

解决方案

修改tiling校验逻辑

修改影响

修复问题

问题二

问题描述

MoeDistributedDispatch算子运行期间偶现精度不达标

严重级别

严重

根因分析

不同wqe,没有保证4KB间保序,导致小概率情况下开始处理某个token时,该token数据可能还没收全

解决方案

保证当一个wqe头报文到时,上一个wqe数据全部到达,因此将Flag位置从wqe尾部移到wqe头部

修改影响

修复问题

问题三

问题描述

运行mpirun执行精度测试,出现精度对比失败报错

严重级别

严重

根因分析

HCCL执行尾同步操作时,barrier左右边界错误,数据拷贝没有完全同步,出现概率性失败

解决方案

交换barrier的左右link的位置,保证数据收发完成

修改影响

修复问题

问题四

问题描述

aclnnMoeTokenUnpermuteWithRoutingMap算子在关闭paddedMode的场景下,部分用例执行失败,存在功能和精度问题

严重级别

严重

根因分析

topk计算逻辑存在问题,top小于512的情况被计算成大于512,导致topk实际小于512的时候被拦截

解决方案

修改topk计算逻辑,保证topk计算正确

修改影响

修复问题