AOL算子加速库

IFA算子量化支持per-token叠加per-group场景。
Conv3D算子支持FP32。
GroupedMatMul算子专家数限制放开到1024。
MatMul算子支持NHWC数据格式。
GroupedMatMul算子支持Tensor类型的group_list反向计算。
AvgPool3D算子支持FP16/BF16/FP32正反向算子功能。
aclnnQuantMatmulV4输出是BF16时支持scale类型是Float。
新增aclnn接口：aclnnMoeTokenPermute、aclnnMoeTokenPermuteGrad、aclnnMoeTokenUnpermute、aclnnMoeTokenUnpermuteGrad、aclnnPolar。
新增算子：AdaptiveAvgPool3d算子、AdaptiveAvgPool3dGrad算子。
算子功能增强：
- 如下算子新增支持BFLOAT16：Eye、Cummin、SyncBNTrainingUpdate、SyncBatchNormBackwardReduce、SoftShrinkGrad、GridSampler2DGrad。
- GridSampler2DGrad算子新增支持FLOAT16：。

通过LinearOperation提供新功能：
- 新增Matmul+inplaceAdd算子能力。
- 新增Matmul+Bias算子能力。
通过SelfAttentionOperation/PagedAttentionOperation提供新功能：
- 新增FlashAttention/PagedAttention INT8量化能力。
- 新增FlashAttention/PagedAttention BNSD能力。
- 新增FlashAttention/PagedAttention LOGN能力。
- 新增FlashAttention/PagedAttention MLA能力。
- PagedAttention支持RazorAttention Rope位置编码。
- FlashAttention算子支持KVCache为二级指针处理。
FlashAttention 全量场景性能优化：通过SelfAttentionOperation调用perfill场景优化15%。
FlashAttention/PagedAttention Atlas 推理系列产品 GQA场景优化：Atlas 300I Duo/Pro通过SelfAttentionOperation/PagedAttentionOperation调用GQA场景性能优化15%。
新增算子：DynamicNTK、Sigmoid、IndexAdd。
拓展算子OP新能力：
- 新增Gating算子支持EP并行能力。
- 新增Reshapeandcache算子支持MLA能力。
- 新增Reshapeandcache算子支持RazorAttention Rope位置编码能力。
拓展算子OP泛化能力：去除RmsNormQuant和LayerNormQuant最后一维最大8192约束。

父主题： 新增特性