内存优化

算子与高阶API共享临时Buffer
限制TilingData结构大小
通过缩减Tensor ShapeInfo维度，优化栈空间
通过Unified Buffer融合实现连续vector计算
通过BT Buffer实现高效的bias计算
通过FP Buffer存放量化参数实现高效随路量化
通过L0C Buffer数据暂存实现高效的矩阵乘结果累加
较小矩阵长驻L1 Buffer，仅分次搬运较大矩阵
优化bank分配以提升读写性能

父主题： 性能优化