昇腾社区首页
中文
注册

AOL算子加速库

算子加速库

  • IFA算子量化支持per-token叠加per-group场景。
  • Conv3D算子支持FP32。
  • GroupedMatMul算子专家数限制放开到1024。
  • MatMul算子支持NHWC数据格式。
  • GroupedMatMul算子支持Tensor类型的group_list反向计算。
  • AvgPool3D算子支持FP16/BF16/FP32正反向算子功能。
  • aclnnQuantMatmulV4输出是BF16时支持scale类型是Float。
  • 新增aclnn接口:aclnnMoeTokenPermute、aclnnMoeTokenPermuteGrad、aclnnMoeTokenUnpermute、aclnnMoeTokenUnpermuteGrad、aclnnPolar。
  • 新增算子:AdaptiveAvgPool3d算子、AdaptiveAvgPool3dGrad算子。
  • 算子功能增强:
    • 如下算子新增支持BFLOAT16:Eye、Cummin、SyncBNTrainingUpdate、SyncBatchNormBackwardReduce、SoftShrinkGrad、GridSampler2DGrad。
    • GridSampler2DGrad算子新增支持FLOAT16:。

推理算子

  • 通过LinearOperation提供新功能:
    • 新增Matmul+inplaceAdd算子能力。
    • 新增Matmul+Bias算子能力。
  • 通过SelfAttentionOperation/PagedAttentionOperation提供新功能:
    • 新增FlashAttention/PagedAttention INT8量化能力。
    • 新增FlashAttention/PagedAttention BNSD能力。
    • 新增FlashAttention/PagedAttention LOGN能力。
    • 新增FlashAttention/PagedAttention MLA能力。
    • PagedAttention支持RazorAttention Rope位置编码。
    • FlashAttention算子支持KVCache为二级指针处理。
  • FlashAttention 全量场景性能优化:通过SelfAttentionOperation调用perfill场景优化15%。
  • FlashAttention/PagedAttention Atlas 推理系列产品 GQA场景优化:Atlas 300I Duo/Pro通过SelfAttentionOperation/PagedAttentionOperation调用GQA场景性能优化15%。
  • 新增算子:DynamicNTK、Sigmoid、IndexAdd。
  • 拓展算子OP新能力:
    • 新增Gating算子支持EP并行能力。
    • 新增Reshapeandcache算子支持MLA能力。
    • 新增Reshapeandcache算子支持RazorAttention Rope位置编码能力。
  • 拓展算子OP泛化能力:去除RmsNormQuant和LayerNormQuant最后一维最大8192约束。