昇腾社区首页
中文
注册
开发者
下载

算子库

aclnn接口

  • 新增aclnn接口:
    • NN算子接口
      • aclnnAdaptiveMaxPool2dBackward
      • aclnnAddmmWeightNz
      • aclnnApplyAdamWQuant
      • aclnnAttentionUpdate
      • aclnnBatchMatMulWeightNz
      • aclnnDropoutGenMaskV2Tensor
      • aclnnFusedCrossEntropyLossWithMaxSum
      • aclnnFusedLinearCrossEntropyLossGrad
      • aclnnFusedLinearOnlineMaxSum
      • aclnnGatherPaKvCache
      • aclnnGroupedMatmulFinalizeRoutingV3
      • aclnnGroupedMatmulFinalizeRoutingWeightNzV2
      • aclnnIndexFill&aclnnInplaceIndexFill
      • aclnnInplaceNormalTensor
      • aclnnInplaceRandomTensor
      • aclnnInplaceUniformTensor
      • aclnnMatmulCompress
      • aclnnMatmulWeightNz
      • aclnnMoeDistributeCombineAddRmsNormV2
      • aclnnMoeDistributeCombineV3
      • aclnnMoeDistributeDispatchV3
      • aclnnMultinomialTensor
      • aclnnNpuFormatCast
      • aclnnObfuscationCalculateV2
      • aclnnObfuscationSetupV2
      • aclnnScatterPaKvCache
      • aclnnTfScatterAdd
    • 融合算子接口
      • aclnnAdaLayerNorm
      • aclnnAdaLayerNormQuant
      • aclnnAddRmsNormDynamicQuantV2
      • aclnnAddRmsNormQuantV2
      • aclnnExpandIntoJaggedPermute
      • aclnnExpSegsumBackward
      • aclnnFlashAttentionUnpaddingScoreGradV4
      • aclnnFlashAttentionVarLenScoreV4
      • aclnnFusedInferAttentionScoreV4
      • aclnnMlaPreprocess
      • aclnnMoeFusedTopk
      • aclnnNormRopeConcat
      • aclnnNormRopeConcatBackward
      • aclnnQuantMatmulReduceSumWeightNz
      • aclnnRmsNormQuant
      • aclnnSoftmaxCrossEntropyWithLogits
      • aclnnTopKTopPSample
  • 如下aclnn接口特性增强:
    • Atlas 300I DUO推理卡支持aclnnMoeInitRoutingV2、aclnnMoeTokenUnpermute。
    • aclnnApplyTopKTopP支持topk/topp可选输入。
    • aclnnIndexAddV2支持确定性计算。
    • aclnnIndexFill支持index输入为Tensor。
    • aclnnFusedInferAttentionScoreV3接口新增支持FP16/BF16 TND GQA能力。
    • aclnnFusedInferAttentionScoreV3接口新增支持FP16/BF16 TND GQA prefill/decode混合调用能力。
    • aclnnFusedInferAttentionScoreV3接口新增C8场景的MTP能力。
    • aclnnNsaCompressAttentionInfer 支持输入格式BSND。
    • aclnnNsaSelectedAttentionInfer prefill/decode支持aclgraph入图。
    • aclnnNsaCompressAttentionInfer prefill/decode支持aclgraph入图。
    • aclnnNsaSelectedAttentionInfer 支持输入格式TND。
    • aclnnBatchMatMul、aclnnAddmm接口支持权重使用私有格式(WeightNz)。
    • aclnnWeightQuantBatchMatmulV2/aclnnWeightQuantBatchMatmulV3支持确定性计算。

算子特性

  • 新增融合算子
    • expand_into_jagged_permute
  • 新增算子特性:
    • MLAPO算子支持非量化、hiddenSize泛化。
  • 算子特性优化:
    • RepeatInterLeave算子性能优化。
    • GatherElements dim=-1场景性能优化。
    • GMM算子新增A4W4场景。
    • GMM A8W4 per-channel量化MSD方案性能优化。
    • GmmSwigluQuant新增A8W4 MSD场景。
    • GmmSwigluQuant A8W8 大M小K性能优化。
    • Gmm A8W8 大M小K性能优化。
    • GMM支持A8W4伪量化。
    • Conv3d算子支持大w轴场景。
    • MoeDistributeDispatch/MoeDistributeCombine非分层场景支持128/256卡。
    • MatmulReduceScatterV2支持AIV通信模式。
    • AllgatherMatmulV2支持AIV通信模式。
    • Atlas 推理系列产品上,Matmul 支持使用FLOAT16进行权重压缩。
    • Atlas A2 训练系列产品/Atlas A2 推理系列产品Atlas A3 推理系列产品/Atlas A3 训练系列产品上,Batchmatmul (B2 B1 1 K) @(1 B1 K N)场景性能优化。
    • Quantbatchmatmul 量化功能增强:A4W4 支持pergroup非对称量化、A8W8支持perblock量化。
    • MatMul算子性能优化:MixND2NZ场景支持CV并行、SingleCoreSplitK模板流水优化。