融合算子使能要求安装CANN NNAL(Ascend Transformer Boost加速库),请参考《CANN 软件安装指南》中的“安装CANN软件包”章节完成安装。
API名称 |
描述 |
链接(适配core_r0.6.0) |
链接(适配core_r0.7.0) |
---|---|---|---|
npu_dropout_add_layer_norm |
对应特性使用请参见DropoutAddLayerNorm融合优化。 |
||
fusion_attention |
对应特性使用请参见Flash Attention融合优化。 |
||
rms_norm |
对应特性使用请参见RMSNorm融合优化。 |
||
swiglu |
对应特性使用请参见SwiGLU融合优化。 |
||
npu_rotary_position_embedding |
对应特性使用请参见RoPE融合优化。 |
||
npu_matmul_add_fp32 |
对应特性使用请参见Matmul_Add融合优化。 |
||
npu_fused_moe_token_permute |
对应特性使用请参见MoE Token Permute and Unpermute融合优化。 |
||
npu_fused_moe_token_unpermute |
|||
npu_gmm |
对应特性使用请参见Megatron MoE GMM。 |
||
npu_mm_all_reduce_add_rms_norm |
MatmulAllReduceAddRmsNorm融合算子对应接口。 |
||
npu_mm_all_reduce_add_rms_norm_ |
InplaceMatmulAllReduceAddRmsNorm融合算子对应接口。 |
||
npu_grouped_mat_mul_all_reduce |
GroupedMatMulAllReduce算子对应接口。 |