昇腾社区首页
中文
注册
开发者
下载

已修复问题

问题一

问题描述

torch_npu.fused_linear_cross_entropy_loss_with_max_sum_grad存在部分用例精度不达标,API确定性一致性结果中存在部分用例50次结果不一致

严重级别

严重

根因分析

vector同步机制逻辑错误,极小概率出现内存踩踏,造成精度异常和不确定性结果

解决方案

修改vector同步机制,修复内存踩踏问题

修改影响

修复问题

问题二

问题描述

16卡场景以及双机8卡场景,ReduceScatterV图模式进行性能测试时,开启非确定性计算会发生报错

严重级别

严重

根因分析

RSv算子在多机图模式场景下默认切入确定性计算流程,在静态图下,流的计算在编译阶段进行计算,比单算子模式要早进行计算

解决方案

RSv算子 在开启确定性计算&图模式时,需要重新计算streamNum

修改影响

修复问题

问题三

问题描述

aclnnInplaceNanToNum算子精度测试不通过,当输入tensor为nan时,输出结果与标杆不符。

严重级别

严重

根因分析

aclnnInplaceNanToNum的功能为将输入中的NaN、正无穷大和负无穷大值分别替换为nan、posinf、neginf指定的值。但是算子内部实现是按照self->替换nan->替换posinf->替换neginf;导致如果输入为nan,指定nan替换的值为inf时会被继续替换。

解决方案

修改替换逻辑,保证nan替换的值为inf时不会被继续替换

修改影响

修复问题