昇腾社区首页
中文
注册

优化建议总览表

表1 性能优化建议总览表

分类

分类描述

优化建议

搬运优化

通过控制搬运的数据块大小和GM地址等来实现搬运效率的最大化。

尽量一次搬运较大的数据块

GM地址尽量512B对齐

高效的使用搬运API

避免同地址访问

设置合理的L2 CacheMode

内存优化

通过Buffer的共享与复用、数据压缩精简、使用专用存储空间、访存调度优化等方法来减少内存占用,提升计算效率。

算子与高阶API共享临时Buffer

限制TilingData结构大小

通过缩减Tensor ShapeInfo维度,优化栈空间

通过Unified Buffer融合实现连续vector计算

通过BT Buffer实现高效的bias计算

通过FP Buffer存放量化参数实现高效随路量化

通过L0C Buffer数据暂存实现高效的矩阵乘结果累加

较小矩阵长驻L1 Buffer,仅分次搬运较大矩阵

避免Unified Buffer的bank冲突

头开销优化

通过使用恰当的核数和算子Kernel Type等方法来降低算子头开销(算子执行计算前产生的时延)。

设置合适的核数和算子Kernel类型

API使用优化

提供API的使用技巧,便于开发者选择合适的API或者在使用相关API时能减少冗余操作,提升执行效率。

纯搬运类算子VECIN和VECOUT建议复用

避免TPipe在对象内创建和初始化

Matmul使能AtomicAdd选项

Vector算子灵活运用Counter模式

选择低延迟指令,优化归约操作性能

流水优化

通过任务并行化、异步调度等方法,提升硬件资源利用率,实现更高的吞吐率。

使能double buffer

使能Iterate或IterateAll异步接口避免AIC/AIV同步依赖

Tiling优化

提供Tiling相关的优化建议,便于开发者选择合适的Tiling切分策略。

L2 Cache切分

核间负载均衡