优化建议总览表

表1 性能优化建议总览表
分类	分类描述	优化建议
搬运优化	通过控制搬运的数据块大小和GM地址等来实现搬运效率的最大化。	尽量一次搬运较大的数据块
		GM地址尽量512B对齐
		高效的使用搬运API
		避免同地址访问
		设置合理的L2 CacheMode
内存优化	通过Buffer的共享与复用、数据压缩精简、使用专用存储空间、访存调度优化等方法来减少内存占用，提升计算效率。	算子与高阶API共享临时Buffer
		限制TilingData结构大小
		通过缩减Tensor ShapeInfo维度，优化栈空间
		通过Unified Buffer融合实现连续vector计算
		通过BT Buffer实现高效的bias计算
		通过FP Buffer存放量化参数实现高效随路量化
		通过L0C Buffer数据暂存实现高效的矩阵乘结果累加
		较小矩阵长驻L1 Buffer，仅分次搬运较大矩阵
		避免Unified Buffer的bank冲突
头开销优化	通过使用恰当的核数和算子Kernel Type等方法来降低算子头开销（算子执行计算前产生的时延）。	设置合适的核数和算子Kernel类型
API使用优化	提供API的使用技巧，便于开发者选择合适的API或者在使用相关API时能减少冗余操作，提升执行效率。	纯搬运类算子VECIN和VECOUT建议复用
		避免TPipe在对象内创建和初始化
		Matmul使能AtomicAdd选项
		Vector算子灵活运用Counter模式
		选择低延迟指令，优化归约操作性能
流水优化	通过任务并行化、异步调度等方法，提升硬件资源利用率，实现更高的吞吐率。	使能double buffer
流水优化	通过任务并行化、异步调度等方法，提升硬件资源利用率，实现更高的吞吐率。	使能Iterate或IterateAll异步接口避免AIC/AIV同步依赖
Tiling优化	提供Tiling相关的优化建议，便于开发者选择合适的Tiling切分策略。	L2 Cache切分
Tiling优化	提供Tiling相关的优化建议，便于开发者选择合适的Tiling切分策略。	核间负载均衡

父主题： 性能优化