算子库
ops-nn库
- 矩阵乘类接口精度提升:
- aclnnMm、aclnnMatMul在FP32类型下新增支持分组累加算法。分组累加通过将矩阵乘法拆分为多个小组进行累加,有效减少浮点运算中的精度损失,提升计算结果的精度。
- aclnnAddmm、aclnnBaddbmm算子新增支持高精度累加模式。在矩阵乘加运算中,中间累加结果使用更高精度存储,提升计算结果的精度。
- 确定性性能优化:
- 索引类接口aclnnIndexPutImpl、aclnnInplaceScatter、aclnnEmbeddingDenseBackward,正则类接口aclnnRmsNormGrad,进行了确定性计算性能优化。
- 卷积类接口aclnnConvolutionBackward在输入通道/输出通道<=128,且groups=1场景下确定性性能优化。
ops-transformer库
- FlashAttention算子功能增强:
- aclnnFlashAttentionScoreV3、aclnnFlashAttentionVarLenScoreV5的正反向支持Sink Attention机制。
- aclnnFusedInferAttentionScoreV4算子新增支持滑动窗口注意力(Sliding Window Attention, SWA)和可配置的softmax低精度计算模式。SWA可降低内存占用和计算开销。softmax低精度计算适用于对推理速度要求高、可接受轻微精度损失的场景。
- 稀疏注意力算子全新支持
- SparseFlashAttention算子:新增支持稀疏FlashAttention算子,通过稀疏注意力模式降低计算量和内存占用。
- KvQuantSparseFlashAttention算子:新增支持KV Cache量化稀疏注意力算子,结合稀疏注意力和KV Cache量化技术,实现极致的推理内存优化。
- LightningIndexer算子:与SparseFlashAttention算子配合使用,输出所需要的index。适用于DeepSeekV3.2等模型。
- QuantLightningIndexer算子:新增支持量化版本的LightningIndexer算子。
- MLA(Multi-Head Latent Attention)算子升级
- 新增MLAPrologV3接口,支持KV Cache的per-tile量化和prefill阶段优化,支持精细化控制query/key尺度的场景。
- MC2 通算融合Dispatch&Combine能力增强:
- MoeDistributeDispatchV2 、MoeDistributeCombineV2 支持HCCL按通信域粒度设置CCL_BUFFER。
- MoeDistributeDispatchV2 基础场景支持comm_alg 配置 "fullmesh_v2" 使能大bs性能优化模板。
父主题: 新增特性