GM地址尽量512B对齐
【优先级】高
【描述】由于AI处理器内部设计约束,从GM向Local Memory搬运数据时,保证GM地址512B对齐可以最有效的发挥出带宽的效率。如下图示例,展示了在512B对齐以及32B对齐情况下单核的带宽效率:搬运同等数据量,带宽差距最大的情况,32B对齐场景只能达到512B对齐场景的70%。

- 本性能优化手段仅针对
Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件 生效。 - 测试数据与处理器型号相关,且实际测试时可能会存在略微抖动,具体带宽数值并不一定和下文的测试数据严格一致。
图1 GM->UB方向512B对齐和32B对齐实测带宽的差异对比

图2 UB->GM方向512B对齐和32B对齐实测带宽的差异对比

父主题: 搬运优化