算子库
aclnn接口
- 新增aclnn接口:
- NN算子接口
- aclnnAdaptiveMaxPool2dBackward
- aclnnAddmmWeightNz
- aclnnApplyAdamWQuant
- aclnnAttentionUpdate
- aclnnBatchMatMulWeightNz
- aclnnDropoutGenMaskV2Tensor
- aclnnFusedCrossEntropyLossWithMaxSum
- aclnnFusedLinearCrossEntropyLossGrad
- aclnnFusedLinearOnlineMaxSum
- aclnnGatherPaKvCache
- aclnnGroupedMatmulFinalizeRoutingV3
- aclnnGroupedMatmulFinalizeRoutingWeightNzV2
- aclnnIndexFill&aclnnInplaceIndexFill
- aclnnInplaceNormalTensor
- aclnnInplaceRandomTensor
- aclnnInplaceUniformTensor
- aclnnMatmulCompress
- aclnnMatmulWeightNz
- aclnnMoeDistributeCombineAddRmsNormV2
- aclnnMoeDistributeCombineV3
- aclnnMoeDistributeDispatchV3
- aclnnMultinomialTensor
- aclnnNpuFormatCast
- aclnnObfuscationCalculateV2
- aclnnObfuscationSetupV2
- aclnnScatterPaKvCache
- aclnnTfScatterAdd
- 融合算子接口
- aclnnAdaLayerNorm
- aclnnAdaLayerNormQuant
- aclnnAddRmsNormDynamicQuantV2
- aclnnAddRmsNormQuantV2
- aclnnExpandIntoJaggedPermute
- aclnnExpSegsumBackward
- aclnnFlashAttentionUnpaddingScoreGradV4
- aclnnFlashAttentionVarLenScoreV4
- aclnnFusedInferAttentionScoreV4
- aclnnMlaPreprocess
- aclnnMoeFusedTopk
- aclnnNormRopeConcat
- aclnnNormRopeConcatBackward
- aclnnQuantMatmulReduceSumWeightNz
- aclnnRmsNormQuant
- aclnnSoftmaxCrossEntropyWithLogits
- aclnnTopKTopPSample
- NN算子接口
- 如下aclnn接口特性增强:
- Atlas 300I DUO推理卡支持aclnnMoeInitRoutingV2、aclnnMoeTokenUnpermute。
- aclnnApplyTopKTopP支持topk/topp可选输入。
- aclnnIndexAddV2支持确定性计算。
- aclnnIndexFill支持index输入为Tensor。
- aclnnFusedInferAttentionScoreV3接口新增支持FP16/BF16 TND GQA能力。
- aclnnFusedInferAttentionScoreV3接口新增支持FP16/BF16 TND GQA prefill/decode混合调用能力。
- aclnnFusedInferAttentionScoreV3接口新增C8场景的MTP能力。
- aclnnNsaCompressAttentionInfer 支持输入格式BSND。
- aclnnNsaSelectedAttentionInfer prefill/decode支持aclgraph入图。
- aclnnNsaCompressAttentionInfer prefill/decode支持aclgraph入图。
- aclnnNsaSelectedAttentionInfer 支持输入格式TND。
- aclnnBatchMatMul、aclnnAddmm接口支持权重使用私有格式(WeightNz)。
- aclnnWeightQuantBatchMatmulV2/aclnnWeightQuantBatchMatmulV3支持确定性计算。
算子特性
- 新增融合算子
- expand_into_jagged_permute
- 新增算子特性:
- MLAPO算子支持非量化、hiddenSize泛化。
- 算子特性优化:
- RepeatInterLeave算子性能优化。
- GatherElements dim=-1场景性能优化。
- GMM算子新增A4W4场景。
- GMM A8W4 per-channel量化MSD方案性能优化。
- GmmSwigluQuant新增A8W4 MSD场景。
- GmmSwigluQuant A8W8 大M小K性能优化。
- Gmm A8W8 大M小K性能优化。
- GMM支持A8W4伪量化。
- Conv3d算子支持大w轴场景。
- MoeDistributeDispatch/MoeDistributeCombine非分层场景支持128/256卡。
- MatmulReduceScatterV2支持AIV通信模式。
- AllgatherMatmulV2支持AIV通信模式。
Atlas 推理系列产品 上,Matmul 支持使用FLOAT16进行权重压缩。Atlas A2 训练系列产品 /Atlas A2 推理系列产品 、Atlas A3 推理系列产品 /Atlas A3 训练系列产品 上,Batchmatmul (B2 B1 1 K) @(1 B1 K N)场景性能优化。- Quantbatchmatmul 量化功能增强:A4W4 支持pergroup非对称量化、A8W8支持perblock量化。
- MatMul算子性能优化:MixND2NZ场景支持CV并行、SingleCoreSplitK模板流水优化。
父主题: 新增特性