已修复问题
问题一
问题描述 |
LinearParalleOperation支持 all2allv+gmm &gmm+all2allv 算子融合场景 存在算子精度不达标以及算子报EH9999错误 |
---|---|
严重级别 |
严重 |
根因分析 |
代码逻辑存在错误,tiling校验错误导致部分极端场景存在精度错误 |
解决方案 |
修改tiling校验逻辑 |
修改影响 |
修复问题 |
问题二
问题描述 |
MoeDistributedDispatch算子运行期间偶现精度不达标 |
---|---|
严重级别 |
严重 |
根因分析 |
不同wqe,没有保证4KB间保序,导致小概率情况下开始处理某个token时,该token数据可能还没收全 |
解决方案 |
保证当一个wqe头报文到时,上一个wqe数据全部到达,因此将Flag位置从wqe尾部移到wqe头部 |
修改影响 |
修复问题 |
问题三
问题描述 |
运行mpirun执行精度测试,出现精度对比失败报错 |
---|---|
严重级别 |
严重 |
根因分析 |
HCCL执行尾同步操作时,barrier左右边界错误,数据拷贝没有完全同步,出现概率性失败 |
解决方案 |
交换barrier的左右link的位置,保证数据收发完成 |
修改影响 |
修复问题 |
问题四
问题描述 |
aclnnMoeTokenUnpermuteWithRoutingMap算子在关闭paddedMode的场景下,部分用例执行失败,存在功能和精度问题 |
---|---|
严重级别 |
严重 |
根因分析 |
topk计算逻辑存在问题,top小于512的情况被计算成大于512,导致topk实际小于512的时候被拦截 |
解决方案 |
修改topk计算逻辑,保证topk计算正确 |
修改影响 |
修复问题 |
父主题: 已知问题和已修复问题