Conv2D
函数功能
注意:该接口后续即将废弃,新开发内容不要使用该接口。
计算给定输入张量和权重张量的2-D卷积,输出结果张量。Conv2d卷积层多用于图像识别,使用过滤器提取图像中的特征。
函数原型
1 2 |
template <typename dst_T, typename src_T> __aicore__ inline void Conv2D(const LocalTensor<dst_T>& dstLocal, const LocalTensor<src_T>& featureMap, const LocalTensor<src_T>& weight, Conv2dParams& conv2dParams, Conv2dTilling& tilling) |
1 2 |
template <typename T> __aicore__ inline Conv2dTilling GetConv2dTiling(Conv2dParams& conv2dParams) |
参数说明
参数名称 |
类型 |
说明 |
||
---|---|---|---|---|
dstLocal |
输出 |
目的操作数。 Atlas 训练系列产品,支持的QuePosition为:CO1,CO2 Atlas推理系列产品(Ascend 310P处理器)AI Core,支持的QuePosition为:CO1,CO2 结果中有效张量格式为[Cout/16, Ho, Wo, 16],大小为Cout * Ho * Wo,Ho与Wo可以根据其他数据计算得出。 Ho = floor((H + pad_top + pad_bottom - dilation_h * (Kh - 1) - 1) / stride_h + 1) Wo = floor((W + pad_left + pad_right - dilation_w * (Kw - 1) - 1) / stride_w + 1) 由于硬件要求Ho*Wo需为16倍数,在申请dst Tensor时,shape应向上16对齐,实际申请shape大小应为Cout * round_howo。 round_howo = ceil(Ho * Wo /16) * 16。 |
||
featureMap |
输入 |
输入张量,Tensor的QuePosition为A1。 输入张量“feature_map”的形状,格式是[C1, H, W, C0]。 C1*C0为输入的channel数,要求如下:
H为高,取值范围:[1,40]。 W为宽,取值范围:[1,40]。 |
||
weight |
输入 |
卷积核(权重)张量,Tensor的QuePosition为B1。 卷积核张量“weight”的形状,格式是[C1, Kh, Kw, Cout, C0]。 C1*C0为输入的channel数,对于C0要求如下:
Cout为卷积核数目,取值范围:[16,32,64,128], Cout必须为16的倍数。 Kh为卷积核高;值的范围:[1,5]。 Kw表示卷积核宽;值的范围:[1,5]。 |
||
conv2dParams |
输入 |
输入矩阵形状等状态参数,类型为Conv2dParams。结构体具体定义为:
|
||
tilling |
输入 |
分形控制参数,类型为Conv2dTilling。结构体具体定义为:
|
参数名称 |
类型 |
说明 |
---|---|---|
imgShape |
vector<int> |
输入张量“feature_map”的形状,格式是[ H, W]。
|
kernelShape |
vector<int> |
卷积核张量“weight”的形状,格式是[Kh, Kw]。
|
stride |
vector<int> |
卷积步长,格式是[stride_h, stride_w]。
|
cin |
int |
分形排布参数,Cin = C1 * C0,Cin为输入的channel数,C1取值范围:[1,4]。
|
cout |
int |
Cout为卷积核数目,取值范围:[16,32,64,128], Cout必须为16的倍数。 |
padList |
vector<int> |
padding行数/列数,格式是[pad_left, pad_right, pad_top, pad_bottom]。
|
dilation |
vector<int> |
空洞卷积参数,格式[dilation_h, dilation_w]。
膨胀后卷积核宽为dilation_w * (Kw - 1) + 1,高为dilation_h * (Kh - 1) + 1。 |
initY |
uint32_t |
表示dstLocal是否需要初始化。
|
partialSum |
uint32_t |
当dstLocal参数所在的QuePosition为CO2时,通过该参数控制计算结果是否搬出。
|
参数名称 |
类型 |
说明 |
||
---|---|---|---|---|
blockSize |
uint32_t |
固定值,恒为16,一个维度内存放的元素个数。 |
||
loopMode |
LoopMode |
遍历模式,结构体具体定义为:
|
||
c0Size |
uint32_t |
一个block的字节长度,范围[16或者32]。 |
||
dtypeSize |
uint32_t |
传入的数据类型的字节长度,范围[1, 2]。 |
||
strideH |
uint32_t |
卷积步长-高,范围:[1,4]。 |
||
strideW |
uint32_t |
卷积步长-宽,范围:[1,4]。 |
||
dilationH |
uint32_t |
空洞卷积参数-高,范围:[1,4]。 |
||
dilationW |
uint32_t |
空洞卷积参数-宽,范围:[1,4]。 |
||
hi |
uint32_t |
feature_map形状-高,范围:[1,40]。 |
||
wi |
uint32_t |
feature_map形状-宽,范围:[1,40]。 |
||
ho |
uint32_t |
feature_map形状-高,范围:[1,40]。 |
||
wo |
uint32_t |
feature_map形状-宽,范围:[1,40]。 |
||
height |
uint32_t |
weight形状-高,[1,5]。 |
||
width |
uint32_t |
weight形状-宽,[1,5]。 |
||
howo |
uint32_t |
feature_map形状大小,为ho * wo。 |
||
mNum |
uint32_t |
M轴等效数据长度参数值,范围:[1,4096]。 |
||
nNum |
uint32_t |
N轴等效数据长度参数值,范围:[1,4096]。 |
||
kNum |
uint32_t |
K轴等效数据长度参数值,范围:[1,4096]。 |
||
roundM |
uint32_t |
M轴等效数据长度参数值且以blockSize为倍数向上取整,范围:[1,4096]。 |
||
roundN |
uint32_t |
N轴等效数据长度参数值且以blockSize为倍数向上取整,范围:[1,4096]。 |
||
roundK |
uint32_t |
K轴等效数据长度参数值且以c0Size为倍数向上取整,范围:[1,4096]。 |
||
mBlockNum |
uint32_t |
M轴Block个数,mBlockNum = mNum / blockSize,范围:[1,4096]。 |
||
nBlockNum |
uint32_t |
N轴Block个数,nBlockNum = nNum / blockSize,范围:[1,4096]。 |
||
kBlockNum |
uint32_t |
K轴Block个数,kBlockNum = kNum / blockSize,范围:[1,4096]。 |
||
mIterNum |
uint32_t |
遍历M轴维度数量,范围:[1,4096]。 |
||
nIterNum |
uint32_t |
遍历N轴维度数量,范围:[1,4096]。 |
||
kIterNum |
uint32_t |
遍历K轴维度数量,范围:[1,4096]。 |
||
mTileBlock |
uint32_t |
M轴切分块个数,范围:[1,4096]。 |
||
nTileBlock |
uint32_t |
N轴切分块个数,范围:[1,4096]。 |
||
kTileBlock |
uint32_t |
K轴切分块个数,范围:[1,4096]。 |
||
kTailBlock |
uint32_t |
K轴尾块个数,范围:[1,4096]。 |
||
mTailBlock |
uint32_t |
M轴尾块个数,范围:[1,4096]。 |
||
nTailBlock |
uint32_t |
N轴尾块个数,范围:[1,4096]。 |
||
kHasTail |
bool |
K轴是否存在尾块。 |
||
mHasTail |
bool |
M轴是否存在尾块。 |
||
nHasTail |
bool |
N轴是否存在尾块。 |
||
mTileNums |
uint32_t |
M轴切分块个数的长度,范围:[1,4096]。 |
||
mTailNums |
uint32_t |
M轴尾块个数的长度,范围:[1,4096]。 |
feature_map.dtype |
weight.dtype |
dst.dtype |
---|---|---|
int8_t |
int8_t |
int32_t |
half |
half |
float |
half |
half |
half |
支持的型号
Atlas 训练系列产品
Atlas推理系列产品(Ascend 310P处理器)AI Core
注意事项
- 该接口当前不支持W=Kw并且H>Kh的场景,其将产生不可预期的结果。
- 操作数地址偏移对齐要求请参见通用约束。