AOL算子加速库
算子加速库
- IFA算子量化支持per-token叠加per-group场景。
- Conv3D算子支持FP32。
- GroupedMatMul算子专家数限制放开到1024。
- MatMul算子支持NHWC数据格式。
- GroupedMatMul算子支持Tensor类型的group_list反向计算。
- AvgPool3D算子支持FP16/BF16/FP32正反向算子功能。
- aclnnQuantMatmulV4输出是BF16时支持scale类型是Float。
- 新增aclnn接口:aclnnMoeTokenPermute、aclnnMoeTokenPermuteGrad、aclnnMoeTokenUnpermute、aclnnMoeTokenUnpermuteGrad、aclnnPolar。
- 新增算子:AdaptiveAvgPool3d算子、AdaptiveAvgPool3dGrad算子。
- 算子功能增强:
- 如下算子新增支持BFLOAT16:Eye、Cummin、SyncBNTrainingUpdate、SyncBatchNormBackwardReduce、SoftShrinkGrad、GridSampler2DGrad。
- GridSampler2DGrad算子新增支持FLOAT16:。
推理算子
- 通过LinearOperation提供新功能:
- 新增Matmul+inplaceAdd算子能力。
- 新增Matmul+Bias算子能力。
- 通过SelfAttentionOperation/PagedAttentionOperation提供新功能:
- 新增FlashAttention/PagedAttention INT8量化能力。
- 新增FlashAttention/PagedAttention BNSD能力。
- 新增FlashAttention/PagedAttention LOGN能力。
- 新增FlashAttention/PagedAttention MLA能力。
- PagedAttention支持RazorAttention Rope位置编码。
- FlashAttention算子支持KVCache为二级指针处理。
- FlashAttention 全量场景性能优化:通过SelfAttentionOperation调用perfill场景优化15%。
- FlashAttention/PagedAttention
Atlas 推理系列产品 GQA场景优化:Atlas 300I Duo/Pro通过SelfAttentionOperation/PagedAttentionOperation调用GQA场景性能优化15%。 - 新增算子:DynamicNTK、Sigmoid、IndexAdd。
- 拓展算子OP新能力:
- 新增Gating算子支持EP并行能力。
- 新增Reshapeandcache算子支持MLA能力。
- 新增Reshapeandcache算子支持RazorAttention Rope位置编码能力。
- 拓展算子OP泛化能力:去除RmsNormQuant和LayerNormQuant最后一维最大8192约束。
父主题: 新增特性