昇腾社区首页
中文
注册

AOL算子加速库

aclnn接口

  • 新增aclnn接口:
    • NN算子接口

      aclnnAlltoAllvGroupedMatMul

      aclnnAddRmsNormCast

      aclnnApplyTopKTopP

      aclnnDeformableConv2d

      aclnnDistributeBarrier

      aclnnExpSegsum

      aclnnGatherV3

      aclnnGroupedMatMulAlltoAllv

      aclnnGroupedMatmulFinalizeRoutingV2

      aclnnGroupedMatmulSwigluQuantWeightNZ

      aclnnGroupedMatmulV5

      aclnnHeaviside

      aclnnMlaPrologV2WeightNz

      aclnnMoeDistributeCombineAddRmsNorm

      aclnnMoeDistributeCombineV2

      aclnnMoeDistributeDispatchV2

      aclnnMoeGatingTopK

      aclnnMoeInitRoutingV3

      aclnnMoeTokenPermuteWithRoutingMap

      aclnnMoeTokenPermuteWithRoutingMapGrad

      aclnnMoeTokenPermuteWithEp

      aclnnMoeTokenPermuteWithEpGrad

      aclnnMoeTokenUnpermuteWithEp

      aclnnMoeTokenUnpermuteWithEpGrad

      aclnnMoeTokenUnpermuteWithRoutingMapGrad

      aclnnMoeTokenUnpermuteWithRoutingMap

      aclnnObfuscationCalculate

      aclnnObfuscationSetup

      aclnnQuantizedBatchNorm

      aclnnSquaredRelu

      aclnnSwiGluQuantV2

      aclnnTransformBiasRescaleQKV

      aclnnTransposeBatchMatMul

      aclnnTransQuantParamV3

      aclnnUnfoldGrad

    • 融合算子接口

      aclnnGroupedMatmulWeightNz

      aclnnFlashAttentionUnpaddingScoreGradV3

      aclnnFlashAttentionVarLenScoreV3

      aclnnNsaCompress

      aclnnNsaCompressAttention

      aclnnNsaCompressAttentionInfer

      aclnnNsaCompressGrad

      aclnnNsaCompressWithCache

      aclnnNsaSelectedAttention

      aclnnNsaSelectedAttentionGrad

      aclnnNsaSelectedAttentionInfer

  • 如下aclnn接口特性增强:
    • aclnnAdaptiveMaxPool2d接口支持bf16数据类型
    • aclnnIndexAdd性能提升
    • aclnnGather接口显存优化提升
    • aclnnWeightQuantBatchMatmul支持pergroup量化模式
    • aclnnWeightQuantBatchMatmul支持batch维度

算子特性

  • 新增融合算子
    • MLAProlog
    • AddRmsnormCast/Quant
    • KvRmsNormRopeCache
    • InterleaveRope
    • DequangSwigluQuant
    • PromptFlashAttention
    • IncreFlashAttention
  • 新增算子特性:
    • MoeDistributeDispatch/MoeDistributeCombine算子新增支持如下特性:支持vector直连RoCe,支持静态图模式、BS参数支持到256、K参数支持到16
    • Conv3d算子支持量化场景
    • GroupedMatmul算子新增支持如下特性:A8W8小K性能优化;A8W4性能优化;切K场景下,支持weight多tensor,输出多tensor;A8W4的weight支持ND格式。
    • GroupedMatmulSwigluQuant算子新增支持如下特性:该算子矩阵乘的结果需要使用额外workspace,导致矩阵乘结果占用过大显存,对该部分显存使用时间片切分+复服的方式降低显存占用率。
    • ppmatmul算子支持pertoken量化模式
    • MaxPoolGradWithArgmaxV1算子支持Atlas 300I Pro和Atlas 300I Duo
    • AvgPool3D算子适配Atlas 300I Pro和Atlas 300I Duo
    • AvgPool3d算子支持NCDHW格式
    • AvgPool3dGrad算子支持NCDHW格式
    • cast算子aicore支持bf16到int64的转换
    • 单算子多实例场景,支持进程级算子控核
    • 新增MC2算子:MoeDistributeDispatch和MoeDistributeCombine
  • 算子特性优化:
    • Conv1d部分场景走fasttiling进行性能优化
    • matmul算子多核切K搬入搬出优化,tiling优化
    • GroupedMatmulAdd算子:使用Vector核能力辅助Cube核完成部分不适合在cube核内完成的计算任务,实现性能优化
    • batchmatmul算子的多batch搬出优化
    • TopK算子性能优化
    • gatherV2算子性能优化
    • cross算子性能优化
    • MOE-Routing类/BMM/QBMM等算子性能优化