AOL算子加速库
aclnn接口
- 新增aclnn接口:
- NN算子接口
aclnnAlltoAllvGroupedMatMul
aclnnAddRmsNormCast
aclnnApplyTopKTopP
aclnnDeformableConv2d
aclnnDistributeBarrier
aclnnExpSegsum
aclnnGatherV3
aclnnGroupedMatMulAlltoAllv
aclnnGroupedMatmulFinalizeRoutingV2
aclnnGroupedMatmulSwigluQuantWeightNZ
aclnnGroupedMatmulV5
aclnnHeaviside
aclnnMlaPrologV2WeightNz
aclnnMoeDistributeCombineAddRmsNorm
aclnnMoeDistributeCombineV2
aclnnMoeDistributeDispatchV2
aclnnMoeGatingTopK
aclnnMoeInitRoutingV3
aclnnMoeTokenPermuteWithRoutingMap
aclnnMoeTokenPermuteWithRoutingMapGrad
aclnnMoeTokenPermuteWithEp
aclnnMoeTokenPermuteWithEpGrad
aclnnMoeTokenUnpermuteWithEp
aclnnMoeTokenUnpermuteWithEpGrad
aclnnMoeTokenUnpermuteWithRoutingMapGrad
aclnnMoeTokenUnpermuteWithRoutingMap
aclnnObfuscationCalculate
aclnnObfuscationSetup
aclnnQuantizedBatchNorm
aclnnSquaredRelu
aclnnSwiGluQuantV2
aclnnTransformBiasRescaleQKV
aclnnTransposeBatchMatMul
aclnnTransQuantParamV3
aclnnUnfoldGrad
- 融合算子接口
aclnnGroupedMatmulWeightNz
aclnnFlashAttentionUnpaddingScoreGradV3
aclnnFlashAttentionVarLenScoreV3
aclnnNsaCompress
aclnnNsaCompressAttention
aclnnNsaCompressAttentionInfer
aclnnNsaCompressGrad
aclnnNsaCompressWithCache
aclnnNsaSelectedAttention
aclnnNsaSelectedAttentionGrad
aclnnNsaSelectedAttentionInfer
- NN算子接口
- 如下aclnn接口特性增强:
- aclnnAdaptiveMaxPool2d接口支持bf16数据类型
- aclnnIndexAdd性能提升
- aclnnGather接口显存优化提升
- aclnnWeightQuantBatchMatmul支持pergroup量化模式
- aclnnWeightQuantBatchMatmul支持batch维度
算子特性
- 新增融合算子
- MLAProlog
- AddRmsnormCast/Quant
- KvRmsNormRopeCache
- InterleaveRope
- DequangSwigluQuant
- PromptFlashAttention
- IncreFlashAttention
- 新增算子特性:
- MoeDistributeDispatch/MoeDistributeCombine算子新增支持如下特性:支持vector直连RoCe,支持静态图模式、BS参数支持到256、K参数支持到16
- Conv3d算子支持量化场景
- GroupedMatmul算子新增支持如下特性:A8W8小K性能优化;A8W4性能优化;切K场景下,支持weight多tensor,输出多tensor;A8W4的weight支持ND格式。
- GroupedMatmulSwigluQuant算子新增支持如下特性:该算子矩阵乘的结果需要使用额外workspace,导致矩阵乘结果占用过大显存,对该部分显存使用时间片切分+复服的方式降低显存占用率。
- ppmatmul算子支持pertoken量化模式
- MaxPoolGradWithArgmaxV1算子支持Atlas 300I Pro和Atlas 300I Duo
- AvgPool3D算子适配Atlas 300I Pro和Atlas 300I Duo
- AvgPool3d算子支持NCDHW格式
- AvgPool3dGrad算子支持NCDHW格式
- cast算子aicore支持bf16到int64的转换
- 单算子多实例场景,支持进程级算子控核
- 新增MC2算子:MoeDistributeDispatch和MoeDistributeCombine
- 算子特性优化:
- Conv1d部分场景走fasttiling进行性能优化
- matmul算子多核切K搬入搬出优化,tiling优化
- GroupedMatmulAdd算子:使用Vector核能力辅助Cube核完成部分不适合在cube核内完成的计算任务,实现性能优化
- batchmatmul算子的多batch搬出优化
- TopK算子性能优化
- gatherV2算子性能优化
- cross算子性能优化
- MOE-Routing类/BMM/QBMM等算子性能优化