下载
中文
注册

存储单元

AI处理器中的计算资源要想发挥强劲算力,必要条件是保证输入数据能够及时准确地出现在计算单元中,需要精心设计存储系统,保证计算单元所需的数据供应

AI Core中包含多级内部存储,AI Core需要把外部存储中的数据加载到内部存储中,才能完成相应的计算。AI Core的主要内部存储包括:L1 Buffer(L1缓冲区),L0 Buffer(L0缓冲区),Unified Buffer(统一缓冲区)等。为了配合AI Core中的数据传输和搬运,AI Core中还包含MTE(Memory Transfer Engine,存储转换引擎)搬运单元,在搬运过程中可执行随路数据格式/类型转换。

AI Core的内部存储列表如表1所示。

表1 存储单元介绍

存储单元

描述

L1 Buffer

L1缓冲区,通用内部存储,是AI Core内比较大的一块数据中转区,可暂存AI Core中需要反复使用的一些数据从而减少从总线读写的次数。

L0A Buffer / L0B Buffer

Cube指令的输入。

L0C Buffer

Cube指令的输出,但进行累加计算的时候,也是输入的一部分。

Unified Buffer

统一缓冲区,向量和标量计算的输入和输出。

BT Buffer

BiasTable Buffer,存放Bias。

FP Buffer

Fixpipe Buffer,存放量化参数、Relu参数等

表2 搬运单元介绍

搬运单元

描述

MTE1

负责如下通路的数据搬运:

  • L1->L0A/L0B
  • L1->UB(只有耦合架构支持)
  • L1->BT Buffer(只有分离架构支持)

MTE2

负责如下通路的数据搬运:

  • GM->{L1, L0A/B},在该通路下,基于分形大小搬运,搬运时满足CacheLine(512B)对齐,性能更优。
  • GM->UB,基于cacheline大小搬运性能更优。

MTE3

负责如下通路的数据搬运:UB -> GM。

FixPipe

只有分离架构支持,负责如下通路的数据搬运,搬运过程中可以完成随路数据格式/类型转换:

  • L0C->{GM/L1}
  • L1->FP Buffer
  • 不同类型的AI处理器,存储单元大小不同,开发者可通过GetCoreMemSize接口获取。
  • 所有通过搬运单元读写GM的数据都缺省被缓存在L2Cache,以此加快访问速度,提高访问效率。核外L2Cache以cacheline为单位加载数据,根据硬件规格不同,cacheline大小不同(128/256/512Byte等)。