算子库
ops-nn库
- 矩阵乘类接口精度提升:
- aclnnMm、aclnnMatMul支持FP32类型下使用分组累加算法。
- aclnnAddmm、aclnnBaddbmm支持高精度累加。
- 确定性性能优化:
- 索引类接口aclnnIndexPutImpl、aclnnInplaceScatter、aclnnEmbeddingDenseBackward,确定性计算性能优化。
- 正则类aclnnRmsNormGrad确定性计算性能优化。
- 卷积类aclnnConvolutionBackward在输入通道/输出通道<=128,且groups=1场景下确定性性能优化。
ops-transformer库
Attention类算子功能泛化:
- aclnnFlashAttentionScoreV3正反向支持sink。
- aclnnFlashAttentionVarLenScoreV5正反向支持sink。
- aclnnFusedInferAttentionScoreV4功能泛化,支持SWA(Sliding Window Attention)支持配置softmax fp16低精度计算。
父主题: 新增特性