昇腾社区首页
中文
注册
开发者
下载

已知问题

问题一

问题描述

LinearParallelOperation算子部分用例 精度不达标

严重级别

一般

根因分析

暂未定位到根因,偶现问题后续复跑均未出现,怀疑单点环境因素,在执行此用例时有其他测试造成干扰

缺陷影响

LinearParallelOperation泛化用例小值域场景,只有1个用例出现过1次,压测500次也未复现,风险较小,评估遗留

规避方案

从8.0.0已存在对应的代码,现网未反馈此类问题,遗留此问题继续跟踪压测结果。

问题二

问题描述

Atlas A3系列产品上,三机PD分离Qwen 235B分布式dp+adxl,跑精度数据集到第二个数据集(math500),P节点报错

严重级别

严重

根因分析

aiv broadcast引入的pingpong机制,在计算pingpong值的时候,由于tag值左移了15位,导致每次计算的pingpong值均为0

缺陷影响

HCCL展开模式(HCCL_OP_EXPANSION_MODE)配置为AIV且执行broadcast算子时会偶现超时

规避方案

不开启AIV展开模式。