昇腾社区首页
中文
注册
开发者
下载

算子库

ops-nn库

  • 矩阵乘类接口精度提升:
    • aclnnMm、aclnnMatMul支持FP32类型下使用分组累加算法。
    • aclnnAddmm、aclnnBaddbmm支持高精度累加。
  • 确定性性能优化:
    • 索引类接口aclnnIndexPutImpl、aclnnInplaceScatter、aclnnEmbeddingDenseBackward,确定性计算性能优化。
    • 正则类aclnnRmsNormGrad确定性计算性能优化。
    • 卷积类aclnnConvolutionBackward在输入通道/输出通道<=128,且groups=1场景下确定性性能优化。

ops-transformer库

Attention类算子功能泛化:
  • aclnnFlashAttentionScoreV3正反向支持sink。
  • aclnnFlashAttentionVarLenScoreV5正反向支持sink。
  • aclnnFusedInferAttentionScoreV4功能泛化,支持SWA(Sliding Window Attention)支持配置softmax fp16低精度计算。