已修复问题
问题一
问题描述 |
torch_npu.fused_linear_cross_entropy_loss_with_max_sum_grad存在部分用例精度不达标,API确定性一致性结果中存在部分用例50次结果不一致 |
|---|---|
严重级别 |
严重 |
根因分析 |
vector同步机制逻辑错误,极小概率出现内存踩踏,造成精度异常和不确定性结果 |
解决方案 |
修改vector同步机制,修复内存踩踏问题 |
修改影响 |
修复问题 |
问题二
问题描述 |
16卡场景以及双机8卡场景,ReduceScatterV图模式进行性能测试时,开启非确定性计算会发生报错 |
|---|---|
严重级别 |
严重 |
根因分析 |
RSv算子在多机图模式场景下默认切入确定性计算流程,在静态图下,流的计算在编译阶段进行计算,比单算子模式要早进行计算 |
解决方案 |
RSv算子 在开启确定性计算&图模式时,需要重新计算streamNum |
修改影响 |
修复问题 |
问题三
问题描述 |
aclnnInplaceNanToNum算子精度测试不通过,当输入tensor为nan时,输出结果与标杆不符。 |
|---|---|
严重级别 |
严重 |
根因分析 |
aclnnInplaceNanToNum的功能为将输入中的NaN、正无穷大和负无穷大值分别替换为nan、posinf、neginf指定的值。但是算子内部实现是按照self->替换nan->替换posinf->替换neginf;导致如果输入为nan,指定nan替换的值为inf时会被继续替换。 |
解决方案 |
修改替换逻辑,保证nan替换的值为inf时不会被继续替换 |
修改影响 |
修复问题 |
父主题: 已知问题和已修复问题