算子库

矩阵乘类接口精度提升：
- aclnnMm、aclnnMatMul在FP32类型下新增支持分组累加算法。分组累加通过将矩阵乘法拆分为多个小组进行累加，有效减少浮点运算中的精度损失，提升计算结果的精度。
- aclnnAddmm、aclnnBaddbmm算子新增支持高精度累加模式。在矩阵乘加运算中，中间累加结果使用更高精度存储，提升计算结果的精度。

确定性性能优化：
- 索引类接口aclnnIndexPutImpl、aclnnInplaceScatter、aclnnEmbeddingDenseBackward，正则类接口aclnnRmsNormGrad，进行了确定性计算性能优化。
- 卷积类接口aclnnConvolutionBackward在输入通道/输出通道<=128，且groups=1场景下确定性性能优化。

FlashAttention算子功能增强：
- aclnnFlashAttentionScoreV3、aclnnFlashAttentionVarLenScoreV5的正反向支持Sink Attention机制。
- aclnnFusedInferAttentionScoreV4算子新增支持滑动窗口注意力（Sliding Window Attention, SWA）和可配置的softmax低精度计算模式。SWA可降低内存占用和计算开销。softmax低精度计算适用于对推理速度要求高、可接受轻微精度损失的场景。
稀疏注意力算子全新支持
- SparseFlashAttention算子：新增支持稀疏FlashAttention算子，通过稀疏注意力模式降低计算量和内存占用。
- KvQuantSparseFlashAttention算子：新增支持KV Cache量化稀疏注意力算子，结合稀疏注意力和KV Cache量化技术，实现极致的推理内存优化。
- LightningIndexer算子：与SparseFlashAttention算子配合使用，输出所需要的index。适用于DeepSeekV3.2等模型。
- QuantLightningIndexer算子：新增支持量化版本的LightningIndexer算子。
MLA（Multi-Head Latent Attention）算子升级
- 新增MLAPrologV3接口，支持KV Cache的per-tile量化和prefill阶段优化，支持精细化控制query/key尺度的场景。
MC2 通算融合Dispatch&Combine能力增强：
- MoeDistributeDispatchV2 、MoeDistributeCombineV2 支持HCCL按通信域粒度设置CCL_BUFFER。
- MoeDistributeDispatchV2 基础场景支持comm_alg 配置 "fullmesh_v2" 使能大bs性能优化模板。

父主题： 新增特性