昇腾社区首页
中文
注册

GM地址尽量512B对齐

【优先级】高

【描述】由于AI处理器内部设计约束,从GM向Local Memory搬运数据时,保证GM地址512B对齐可以最高效的发挥出带宽的效率。如下图示例,展示了在512B对齐以及32B对齐情况下单核的带宽效率:搬运同等数据量,带宽差距最大的情况,32B对齐场景只能达到512B对齐场景的70%。

  • 本性能优化手段仅针对Atlas A2训练系列产品/Atlas 800I A2推理产品生效。
  • 以下测试数据与处理器型号相关,且实际测试时可能会存在略微抖动,具体带宽数值并不一定严格一致。
图1 GM->UB方向512B对齐和32B对齐实测带宽的差异对比
图2 UB->GM方向512B对齐和32B对齐实测带宽的差异对比