优化建议总览表

表1 性能优化建议总览表
分类	分类描述	优化建议
Tiling策略	提供Tiling相关的优化建议，便于开发者选择合适的Tiling切分策略。	核间负载均衡
头尾开销优化	提供降低算子头尾开销（算子执行计算前后产生的时延）的优化建议。	设置合适的核数和算子Kernel类型
		限制TilingData结构大小
		避免TPipe在对象内创建和初始化
流水编排	通过任务并行化、异步调度等方法，提升硬件资源利用率，实现更高的吞吐率。	使能DoubleBuffer
流水编排	通过任务并行化、异步调度等方法，提升硬件资源利用率，实现更高的吞吐率。	使能Iterate或IterateAll异步接口避免AIC/AIV同步依赖
内存访问	通过控制搬运的数据块大小和GM地址等来实现搬运效率的最大化；通过Buffer的共享与复用、数据压缩精简、使用专用存储空间、访存调度优化等方法来减少内存占用，提升计算效率。	尽量一次搬运较大的数据块
		GM地址尽量512B对齐
		高效的使用搬运API
		避免同地址访问
		设置合理的L2 CacheMode
		算子与高阶API共享临时Buffer
		纯搬运类算子VECIN和VECOUT建议复用
		通过缩减Tensor ShapeInfo维度，优化栈空间
		避免Unified Buffer的bank冲突
		L2 Cache切分
矢量计算	矢量计算相关优化建议。	通过Unified Buffer融合实现连续vector计算
		Vector算子灵活运用Counter模式
		选择低延迟指令，优化归约操作性能
矩阵计算	矩阵计算相关优化建议。	通过BT Buffer实现高效的bias计算
		通过FP Buffer存放量化参数实现高效随路量化
		通过L0C Buffer数据暂存实现高效的矩阵乘结果累加
		较小矩阵长驻L1 Buffer，仅分次搬运较大矩阵
		Matmul使能AtomicAdd选项

父主题： SIMD算子性能优化