昇腾社区首页
中文
注册

优化建议总览表

表1 性能优化建议总览表

分类

分类描述

优化建议

搬运优化

通过控制搬运的数据块大小和GM地址等来实现搬运效率的最大化。

尽量一次搬运较大的数据块

GM地址尽量512B对齐

高效的使用搬运API

内存优化

通过Buffer的共享与复用、数据压缩精简、使用专用存储空间、访存调度优化等方法来减少内存占用,提升计算效率。

算子与高阶API共享临时Buffer

限制TilingData结构大小

通过缩减Tensor ShapeInfo维度,优化栈空间

通过Unified Buffer融合实现连续vector计算

通过BT Buffer实现高效的bias计算

通过FP Buffer存放量化参数实现高效随路量化

通过L0C Buffer数据暂存实现高效的矩阵乘结果累加

较小矩阵长驻L1 Buffer,仅分次搬运较大矩阵

优化bank分配以提升读写性能

API使用优化

提供API的使用技巧,便于开发者选择合适的API或者在使用相关API时能减少冗余操作,提升执行效率。

纯搬运类算子VECIN和VECOUT建议复用

避免TPipe在对象内创建和初始化

Matmul使能AtomicAdd选项

Vector算子灵活运用Counter模式

选择低延迟指令,优化归约操作性能

流水优化

通过任务并行化、异步调度等方法,提升硬件资源利用率,实现更高的吞吐率。

使能double buffer

使能Iterate或IterateAll异步接口避免AIC/AIV同步依赖

Tiling优化

提供Tiling相关的优化建议,便于开发者选择合适的Tiling切分策略。

L2 Cache切分

核间负载均衡