已知问题
问题一
问题描述 |
LinearParallelOperation算子部分用例 精度不达标 |
---|---|
严重级别 |
一般 |
根因分析 |
随路反量化指令在n满足特定条件(16*N+i,i<4)时,gm搬入数据存在限制(32byte对齐),导致部分脏数据被带入,影响量化计算结果,精度异常。 |
缺陷影响 |
问题触发场景限制较多,问题触发概率较小,需同时满足n轴n=16*N+i,i<4,并且做量化时才可能触发。同时此为存量算子问题,客户面影响小。 |
规避方案 |
切换atb matmul算子为canndev对应算子 |
问题二
问题描述 |
LinearParallelOperation算子部分用例 精度不达标 |
---|---|
严重级别 |
一般 |
根因分析 |
切换到多核切K新特性场景时无法准确区分边界条件,导致部分shape从mmv2切换到多核切K模板后性能劣化 |
缺陷影响 |
matmul多核切K特性为性能优化特性,在算子中总体呈现正向性能收益(966个泛化shape中90%性能有提升,平均优化40%)。当前测试case主要劣化shape为内轴16以及一些非256对齐的场景(此场景技术评估为泛化边界场景),评估影响较小。 |
规避方案 |
修改知识库中的配置文件,将matmul多核切K的切分方式调整回之前的切分方式 |
父主题: 已知问题和已修复问题