昇腾社区首页
中文
注册
开发者
下载

优化建议总览表

表1 性能优化建议总览表

分类

分类描述

优化建议

Tiling策略

提供Tiling相关的优化建议,便于开发者选择合适的Tiling切分策略。

核间负载均衡

头尾开销优化

提供降低算子头尾开销(算子执行计算前后产生的时延)的优化建议。

设置合适的核数和算子Kernel类型

限制TilingData结构大小

避免TPipe在对象内创建和初始化

流水编排

通过任务并行化、异步调度等方法,提升硬件资源利用率,实现更高的吞吐率。

使能DoubleBuffer

使能Iterate或IterateAll异步接口避免AIC/AIV同步依赖

内存访问

通过控制搬运的数据块大小和GM地址等来实现搬运效率的最大化;通过Buffer的共享与复用、数据压缩精简、使用专用存储空间、访存调度优化等方法来减少内存占用,提升计算效率。

尽量一次搬运较大的数据块

GM地址尽量512B对齐

高效的使用搬运API

避免同地址访问

设置合理的L2 CacheMode

算子与高阶API共享临时Buffer

纯搬运类算子VECIN和VECOUT建议复用

通过缩减Tensor ShapeInfo维度,优化栈空间

避免Unified Buffer的bank冲突

L2 Cache切分

矢量计算

矢量计算相关优化建议。

通过Unified Buffer融合实现连续vector计算

Vector算子灵活运用Counter模式

选择低延迟指令,优化归约操作性能

矩阵计算

矩阵计算相关优化建议。

通过BT Buffer实现高效的bias计算

通过FP Buffer存放量化参数实现高效随路量化

通过L0C Buffer数据暂存实现高效的矩阵乘结果累加

较小矩阵长驻L1 Buffer,仅分次搬运较大矩阵

Matmul使能AtomicAdd选项