已知问题
问题一
问题描述 |
LinearParallelOperation算子部分用例 精度不达标 |
|---|---|
严重级别 |
一般 |
根因分析 |
暂未定位到根因,偶现问题后续复跑均未出现,怀疑单点环境因素,在执行此用例时有其他测试造成干扰 |
缺陷影响 |
LinearParallelOperation泛化用例小值域场景,只有1个用例出现过1次,压测500次也未复现,风险较小,评估遗留 |
规避方案 |
从8.0.0已存在对应的代码,现网未反馈此类问题,遗留此问题继续跟踪压测结果。 |
问题二
问题描述 |
Atlas A3系列产品上,三机PD分离Qwen 235B分布式dp+adxl,跑精度数据集到第二个数据集(math500),P节点报错 |
|---|---|
严重级别 |
严重 |
根因分析 |
aiv broadcast引入的pingpong机制,在计算pingpong值的时候,由于tag值左移了15位,导致每次计算的pingpong值均为0 |
缺陷影响 |
HCCL展开模式(HCCL_OP_EXPANSION_MODE)配置为AIV且执行broadcast算子时会偶现超时 |
规避方案 |
不开启AIV展开模式。 |
父主题: 已知问题和已修复问题