Fixpipe
产品支持情况
|
产品 |
是否支持 |
|---|---|
|
Atlas 350 加速卡 |
支持包含FixpipeParamsV220/FixpipeParamsArch3510参数的接口。 |
|
|
仅支持包含FixpipeParamsV220参数的接口。 |
|
|
仅支持包含FixpipeParamsV220参数的接口。 |
|
|
仅支持包含FixpipeParamsM300参数的接口。 |
|
|
x |
|
|
x |
|
|
x |
功能说明
矩阵计算完成后,对结果进行处理,例如对计算结果进行量化操作,并把数据从CO1搬迁到Global Memory中。
示意图如下:

上图中Fixpipe Buffer->UB->L1 Buffer的接口,仅在NPU_ARCH 351x版本支持。
其中,FixPipe Buffer不同的量化模式对应的内存排布如下:

函数原型
- 传入FixpipeParamsV220
- 通路CO1->GM,不使能tensor量化功能:
1 2
template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR> __aicore__ inline void Fixpipe(const GlobalTensor<T>& dst, const LocalTensor<U>& src, const FixpipeParamsV220& intriParams)
- 通路CO1->GM,使能tensor量化功能:
1 2
template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR, typename S = uint64_t, typename Std::enable_if<Std::is_same<PrimT<S>, uint64_t>::value, bool>::type = true> __aicore__ inline void Fixpipe(const GlobalTensor<T>& dst, const LocalTensor<U>& src, const LocalTensor<S>& cbufWorkspace, const FixpipeParamsV220& intriParams)
- 通路CO1->GM,不使能tensor量化功能:
- 传入FixpipeParamsM300
- 通路CO1->UB,不使能tensor量化功能:
1 2
template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR> __aicore__ inline void Fixpipe(const LocalTensor<T>& dst, const LocalTensor<U>& src, const FixpipeParamsM300& intriParams)
- 通路CO1->UB,使能tensor量化功能:
1 2
template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR, typename S = uint64_t, typename Std::enable_if<Std::is_same<PrimT<S>, uint64_t>::value, bool>::type = true> __aicore__ inline void Fixpipe(const LocalTensor<T>& dst, const LocalTensor<U>& src, const LocalTensor<S>& cbufWorkspace, const FixpipeParamsM300& intriParams)
- 通路CO1->GM,不使能tensor量化功能:
1 2
template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR> __aicore__ inline void Fixpipe(const GlobalTensor<T>& dst, const LocalTensor<U>& src, const FixpipeParamsM300& intriParams)
- 通路CO1->GM,使能tensor量化功能:
1 2
template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR, typename S = uint64_t, typename Std::enable_if<Std::is_same<PrimT<S>, uint64_t>::value, bool>::type = true> __aicore__ inline void Fixpipe(const GlobalTensor<T>& dst, const LocalTensor<U>& src, const LocalTensor<S>& cbufWorkspace, const FixpipeParamsM300& intriParams)
- 通路CO1->UB,不使能tensor量化功能:
- 传入FixpipeParamsArch3510
- 通路CO1->L1 Buffer,不使能tensor量化功能
1 2
template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR> __aicore__ inline void Fixpipe(const LocalTensor<T>& dst, const LocalTensor<U>& src, const FixpipeParamsArch3510<config.format>& intriParams)
- 通路CO1->L1 Buffer,使能tensor量化功能
1 2
template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR> __aicore__ inline void Fixpipe(const LocalTensor<T>& dst, const LocalTensor<U>& src, const LocalTensor<uint64_t>& cbufWorkspace, const FixpipeParamsArch3510<config.format>& intriParams)
- 通路CO1->UB,不使能tensor量化功能:
1 2
template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR> __aicore__ inline void Fixpipe(const LocalTensor<T>& dst, const LocalTensor<U>& src, const FixpipeParamsArch3510<config.format>& intriParams)
- 通路CO1->UB,使能tensor量化功能:
1 2
template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR> __aicore__ inline void Fixpipe(const LocalTensor<T>& dst, const LocalTensor<U>& src, const LocalTensor<uint64_t>& cbufWorkspace, const FixpipeParamsArch3510<config.format>& intriParams)
- 通路CO1->GM,不使能tensor量化功能:
1 2
template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR> __aicore__ inline void Fixpipe(const GlobalTensor<T>& dst, const LocalTensor<U>& src, const FixpipeParamsArch3510<config.format>& intriParams)
- 通路CO1->GM,使能tensor量化功能:
1 2
template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR> __aicore__ inline void Fixpipe(const GlobalTensor<T>& dst, const LocalTensor<U>& src, const LocalTensor<uint64_t>& cbufWorkspace, const FixpipeParamsArch3510<config.format>& intriParams)
- 通路CO1->L1 Buffer,不使能tensor量化功能
参数说明
|
参数名 |
描述 |
||
|---|---|---|---|
|
T |
目的操作数数据类型。 |
||
|
U |
源操作数数据类型。 |
||
|
config |
Fixpipe相关配置参数,类型为FixpipeConfig。取值如下:
|
||
|
S |
cbufWorkspace的数据类型。
模板参数S后一个模板参数仅用于上述数据类型检查,用户无需关注。 |
|
参数名称 |
输入/输出 |
含义 |
|---|---|---|
|
dst |
输出 |
目的操作数,类型为LocalTensor或GlobalTensor。
|
|
src |
输入 |
源操作数,支持的TPosition为CO1,为Mmad接口计算的结果,类型为LocalTensor数据结构的定义请参考LocalTensor。支持的数据类型为float/int32_t,支持的TPosition为CO1,数据格式为NZ格式。起始地址需要满足64B对齐。 |
|
intriParams |
输入 |
Fixpipe搬运参数,具体定义请参考${INSTALL_DIR}/include/ascendc/basic_api/interface/kernel_struct_fixpipe.h,${INSTALL_DIR}请替换为CANN软件安装后文件存储路径。 参数说明请参考表3。 |
|
cbufWorkspace |
输入 |
量化参数,类型为LocalTensor<uint64_t>,支持的TPosition为A1。仅当quantPre为VDEQF16/VQF322B8_PRE/VREQ8时支持,quantPre介绍请参考FixpipeParamsV220/FixpipeParamsM300结构体中quantPre部分。 |
|
参数名称 |
数据类型 |
含义 |
|---|---|---|
|
nSize |
输入 |
源NZ矩阵在N方向上的大小。 |
|
mSize |
输入 |
源NZ矩阵在M方向上的大小。 |
|
srcStride |
输入 |
源NZ矩阵中相邻Z排布的起始地址偏移,取值范围:srcStride∈[0, 65535], 单位:C0_Size(16*sizeof(T),T为src的数据类型)。 |
|
dstStride |
输入 |
|
|
quantPre |
输入 |
QuantMode_t是一个枚举类型,用于控制量化模式,默认值为QuantMode_t::NoQuant,即不使能量化功能。QuantMode_t取值如下:
|
|
deqScalar |
输入 |
scalar量化参数,表示单个scale值,quantPre量化模式为scalar量化时需要设置该参数。支持的数据类型为uint64_t。 |
|
ndNum |
输入 |
源NZ矩阵的数目,也就是传输ND矩阵的数目,取值范围:ndNum∈[1, 65535] |
|
srcNdStride |
输入 |
不同NZ矩阵起始地址之间的间隔,取值范围:srcNdStride∈[1, 512],单位:数据块(16 * C0_Size)。当ndNum配置为1时,srcNdStride配置为0即可,不生效。 |
|
dstNdStride |
输入 |
目的相邻ND矩阵起始地址之间的偏移,取值范围:dstNdstride∈[1, 65535],单位:element。当ndNum配置为1时,dstNdStride配置为0即可,不生效。 |
|
reluEn |
输入 |
是否使能relu的开关,false:不使能relu功能;true:使能relu功能。 |
|
unitFlag |
输入 |
unitFlag是一种Mmad指令和Fixpipe指令细粒度的并行,使能该功能后,硬件每计算完一个分形,计算结果就会被搬出,该功能不适用于在L0C Buffer累加的场景。取值说明如下: 0:保留值; 2:使能unitFlag,硬件执行完指令之后,不会设置寄存器; 3:使能unitFlag,硬件执行完指令之后,会将unitFlag关闭。 使能该功能时,Fixpipe指令的unitFlag设置为3即可。 |
|
isChannelSplit |
输入 |
是否使能通道拆分的功能。默认为false,不使能该功能。仅在src和dst都为float时才能使能通道拆分,且不能同时使能ChannelSplit和NZ2ND功能。 |
|
参数名称 |
数据类型 |
含义 |
||||||
|---|---|---|---|---|---|---|---|---|
|
nSize |
输入 |
源NZ矩阵在N方向上的大小。 |
||||||
|
mSize |
输入 |
源NZ矩阵在M方向上的大小。 取值范围:mSize∈[1, 65535]。
|
||||||
|
srcStride |
输入 |
源NZ矩阵中相邻Z排布的起始地址偏移,取值范围:srcStride∈[0, 65535], 单位:C0_Size(16*sizeof(T), T为src的数据类型)。 |
||||||
|
dstStride |
输入 |
|||||||
|
quantPre |
输入 |
QuantMode_t是一个枚举类型,用于控制量化模式,默认值为QuantMode_t::NoQuant,即不使能量化功能。QuantMode_t取值如下:
|
||||||
|
deqScalar |
输入 |
scalar量化参数,表示单个scale值,quantPre量化模式为scalar量化时需要设置该参数。支持的数据类型为uint64_t。 |
||||||
|
reluEn |
输入 |
是否使能relu的开关,false:不使能relu功能;true:使能relu功能。 |
||||||
|
unitFlag |
输入 |
unitFlag是一种Mmad指令和Fixpipe指令细粒度的并行,使能该功能后,硬件每计算完一个分形,计算结果就会被搬出,该功能不适用于在L0C Buffer累加的场景。取值说明如下: 0:保留值; 2:使能unitFlag,硬件执行完指令之后,不会设置寄存器; 3:使能unitFlag,硬件执行完指令之后,会将unitFlag关闭。 使能该功能时,Fixpipe指令的unitFlag设置为3即可。 |
||||||
|
TransformParams |
输入 |
TransformParams 结构体是一个基于模板参数的类型选择器,用于在编译时根据不同的CO2Layout布局类型,自动选择对应的参数类型。
CO2Layout 布局类型如下:
|
||||||
|
dualDstCtrl |
输入 |
双目标模式控制。当启用双目标模式控制时,L0C中的M×N矩阵将被分成两半,并同时写入两个子块(SUB BLOCK)的UB中,其中前半部分写入SUB BLOCK0,后半部分写入SUB BLOCK1。 2'b00:单目标模式,将整个矩阵写入通过subBlockId参数配置的目标UB。 2'b01:双目标模式,按M维度拆分,M / 2 * N写入每个UB, M必须为2的倍数。 2'b10:双目标模式,按N维度拆分,M * N / 2写入每个UB, N须为32的倍数。 2'b11:保留。 dualDstCtrl仅支持在普通搬运模式或NZ2ND搬运场景下使用,不支持随路功能场景。 |
||||||
|
subBlockId |
输入 |
在启用单目标模式时指示目标UB的编号。 |
||||||
|
isChannelSplit |
输入 |
是否使能通道拆分的功能。默认为false,不使能该功能。仅在src和dst都为float时才能使能通道拆分,且不能同时使能ChannelSplit和NZ2ND功能。 |
不使能NZ2ND的情况下,参数设置示例(通过Fixpipe接口搬运并去除dummy数据)和解释说明如下:
当M方向上的数据元素个数不是16的倍数时,搬入时会额外读取dummy数据,并在写入目标位置后丢弃这些dummy数据。矩阵块被定义为连续的16*16的数据块,数据块的个数为M/16向上取整, 矩阵块的长度为M*16*sizeof(T),T是数据类型。
单搬运模式:
- nSize = 48,表示源NZ矩阵中待搬运矩阵(图中蓝色区域)在N方向上的大小为48个元素。
- mSize = 24,表示源NZ矩阵中待搬运矩阵在M方向上的大小为24个元素。
- srcStride = 64,表示源NZ矩阵中待搬运矩阵相邻Z排布的起始地址偏移,即下图中第一个蓝色Z排布的起始地址与第二个蓝色Z排布的起始地址之间的间隔为64 * C0_Size。
- dstStride = 40 * C0,表示目的NZ矩阵中相邻Z排布的起始地址偏移,即下图中第一个蓝色Z排布的起始地址与第二个蓝色Z排布的起始地址之间的间隔为40 * 16个元素。
双目标控制模式:
在普通搬运模式模式下启用双目标模式如下图所示,分为按M维度拆分和按N维度拆分,按M维度拆分M必须为2的倍数,按N维度拆分N必须为2的倍数:
N方向切分:
- nSize = 32,表示源NZ矩阵中待搬运矩阵在N方向上的大小为32个元素。
- mSize = 48,表示源NZ矩阵中待搬运矩阵在M方向上的大小48个元素。
- srcStride = 64,表示源NZ矩阵中待搬运矩阵相邻Z排布的起始地址偏移,即下图中第一个块Z排布矩阵的起始地址与第二个Z排布矩阵的起始地址之间的间隔为64 * C0_Size。
- dstStride = 64 * C0,表示目的NZ矩阵中相邻Z排布的起始地址偏移,即下图中UB0中Z排布的起始地址与UB1中Z排布的起始地址之间的间隔为64 * 16个元素。
M方向切分:
- nSize = 32,表示源NZ矩阵中待搬运矩阵在N方向上的大小为32个元素。
- mSize = 24,表示源NZ矩阵中待搬运矩阵在M方向上的大小为48个元素。
- srcStride = 64,表示源NZ矩阵中待搬运矩阵相邻Z排布的起始地址偏移,即下图中第一个块Z排布矩阵的起始地址与第二个Z排布矩阵的起始地址之间的间隔为64 * C0_Size。
- dstStride = 40 * C0,表示目的NZ矩阵中相邻Z排布的起始地址偏移,即下图中UB0(或UB1)中第一个Z排布的起始地址与第二个Z排布的起始地址之间的间隔为40 * 16个元素。
使能NZ2ND的情况下,参数设置示例和解释说明如下:
- ndNum = 2,表示源NZ矩阵的数目为2。图中蓝色区域为NZ矩阵1,紫色区域为NZ矩阵2。
- nSize = 32,表示源NZ矩阵(图中蓝色区域)在N方向上的大小为32个元素。
- mSize = 48,表示源NZ矩阵在M方向上的大小为48个元素。
- srcStride = 64,表示源NZ矩阵中相邻Z排布的起始地址偏移,即下图中第一个蓝色Z排布的起始地址与第二个蓝色Z排布的起始地址之间的间隔为64 * C0_Size。
- dstStride = 64,表示目的ND矩阵每一行中的元素个数为64。
- srcNdStride = 16, 表示不同NZ矩阵起始地址之间的间隔为16 * 16 * C0_Size。
- dstNdStride = 4096,表示目的相邻ND矩阵起始地址之间的偏移为4096个元素。
单搬入模式
- ndNum = 2,表示源NZ矩阵的数目为2。图中蓝色区域为NZ矩阵1,紫色区域为NZ矩阵2。
- nSize = 32,表示源NZ矩阵(图中蓝色区域)在N方向上的大小为32个元素。
- mSize = 48,表示源NZ矩阵在M方向上的大小为48个元素。
- srcStride = 64,表示源NZ矩阵中相邻Z排布的起始地址偏移,即下图中第一个蓝色Z排布的起始地址与第二个蓝色Z排布的起始地址之间的间隔为64 * C0_Size。
- dstStride = 64,表示目的ND矩阵每一行中的元素个数为64。
- srcNdStride = 256, 表示不同NZ矩阵起始地址之间的间隔为256,单位为C0_Size。
- dstNdStride = 4096,表示目的相邻ND矩阵起始地址之间的偏移为4096个元素。
双搬入模式
- ndNum = 2,表示源NZ矩阵的数目为2。图中红框区域为矩阵1,蓝框区域为矩阵2。
- nSize = 32,表示源NZ矩阵(图中红框区域或蓝框区域)在N方向上的大小为32个元素。
- mSize = 48,表示源NZ矩阵在M方向上的大小为48个元素。
- srcStride = 64,表示源NZ矩阵中相邻Z排布的起始地址偏移,即下图红框区域中左侧浅色Z排布矩阵的起始地址与右侧深色Z排布矩阵的起始地址之间的间隔为64 * C0_Size。
- dstStride = 64,表示目的ND矩阵每一行中的元素个数为64。
- ndNum = 2, 表示源NZ矩阵的数目。
- srcNdStride = 240 , 表示不同NZ矩阵起始地址之间的间隔为240 * C0_Size。
- dstNdStride = 4096,表示目的相邻ND矩阵起始地址之间的偏移为4096个元素。
图5 使能NZ2ND参数双搬入模式设置示意图
使能NZ2DN的情况下,参数设置示例和解释说明如下:
单搬运模式:
- dnNum = 2,表示源NZ矩阵的数目为2。图中蓝色区域为NZ矩阵1,紫色区域为NZ矩阵2。
- nSize = 32,表示源NZ矩阵(图中蓝色区域)在N方向上的大小为32个元素。
- mSize = 48,表示源NZ矩阵在M方向上的大小为48个元素。
- srcStride = 80,表示源NZ矩阵中相邻Z排布的起始地址偏移,即下图中相邻两块蓝色Z排布的起始地址之间的间隔为80 * C0_Size。
- dstStride = 80,表示目的DN矩阵每一行中的元素个数为80。
- ndNum = 2, 表示源NZ矩阵的数目。
- srcNzMatrixStride = 240,表示不同源NZ矩阵的偏移,即下图中第一个蓝色Z排布的起始地址和第二个紫色Z排布的起始地址之间的间隔为240 * C0_Size。
- srcNzC0Stride = 1:表示源矩阵NZ分形相邻行的地址偏移,。
- dstDnMatrixStride:表示相邻DN矩阵起始地址间的偏移为48 * 80 =3840个元素。
单搬运模式:
- dnNum = 2,表示源NZ矩阵的数目为2。图中蓝色区域为NZ矩阵1,红色区域为NZ矩阵2。
- nSize = 24,表示源NZ矩阵(图中蓝色区域)在N方向上的大小为24个元素。
- mSize = 24,表示源NZ矩阵在M方向上的大小为24个元素。
- srcStride = 80,表示源NZ矩阵中相邻Z排布的起始地址偏移,即下图中相邻两块蓝色Z排布的起始地址之间的间隔为80 * C0_Size。
- dstStride = 60,表示目的DN矩阵每一行中的元素个数为80。
- ndNum = 2, 表示源NZ矩阵的数目。
- srcNzMatrixStride = 240,表示不同源NZ矩阵的偏移,即下图中第一个蓝色Z排布的起始地址和第二个紫色Z排布的起始地址之间的间隔为240 * C0_Size。
- srcNzC0Stride = 2:表示源矩阵NZ分形相邻行的地址偏移。
- dstDnMatrixStride:表示相邻DN矩阵起始地址间的偏移为48 * 60 = 2880个元素。
约束说明
- ndNum=0 表示不执行,此指令将不被执行并报warning。
- 对于量化输入为float32数据类型的说明如下:
- 标准的IEEE 754 float32格式为:1bit符号位,8bits指数位,23bits尾数位;当前AI处理器支持的float32格式为:1bit符号位,8bits指数位,10bits尾数位。
- 如果用户提供的是标准的IEEE 754 float32输入,API内部会处理成处理器支持的float32格式进行计算,此时如果golden数据生成过程中使用的是标准的IEEE 754 float32数据,则可能引入精度不匹配问题,需要修正golden数据的生成,将量化参数的23bits尾数位的低13bits数据位清零再参与量化计算。
调用示例
- 示例一:通路CO1->GM。输入A矩阵和B矩阵的数据类型为half,输出C矩阵为float,默认配置使能Nz2Nd的格式转换。完整样例可以参考样例链接。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
AscendC::GlobalTensor<outputType> cGM; cGM.SetGlobalBuffer((__gm__ outputType *)c); #if defined(__NPU_ARCH__) && (__NPU_ARCH__ == 2201) AscendC::FixpipeParamsV220 fixpipeParams; fixpipeParams.ndNum = 1; fixpipeParams.srcNdStride = 0; fixpipeParams.dstNdStride = 0; #elif defined(__NPU_ARCH__) && (__NPU_ARCH__ == 3510) AscendC::FixpipeParamsArch3510<AscendC::CO2Layout::ROW_MAJOR> fixpipeParams; #endif fixpipeParams.mSize = baseM; fixpipeParams.srcStride = CeilAlign(baseM, CUBE_BLOCK); fixpipeParams.nSize = baseN; fixpipeParams.dstStride = baseN; AscendC::Fixpipe<outputType, l0cType, AscendC::CFG_ROW_MAJOR>(cGM, c, fixpipeParams);
- 示例二:通路CO1->C1。输入A矩阵和B矩阵的数据类型为half,输出C矩阵为int8_t,不使能Nz2Nd的格式转换,使能Scalar量化。完整样例可以参考样例链接。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
AscendC::LocalTensor<outputType> c1Local(AscendC::TPosition::C1, c1Addr, cSizeAlignL1); #if defined(__NPU_ARCH__) && (__NPU_ARCH__ == 2201) uint16_t c0Size = 32; AscendC::FixpipeParamsV220 fixpipeParams; // NZ2NZ场景,FixpipeParamsV220的dstStride单位为datablock(32Bytes) fixpipeParams.dstStride = baseM * c0Size * sizeof(outputType) / AscendC::ONE_BLK_SIZE; fixpipeParams.mSize = baseM; fixpipeParams.srcStride = CeilAlign(baseM, CUBE_BLOCK); fixpipeParams.nSize = baseN; // scalar quant fixpipeParams.quantPre = QuantMode_t::QF322B8_PRE; uint64_t deqScalar = static_cast<uint64_t>(*reinterpret_cast<int32_t *>(&quantScalar)); constexpr bool sign = (AscendC::IsSameType<outputType, int8_t>::value) ? true : false; deqScalar = (deqScalar & ~(static_cast<uint64_t>(1) << 46)) | (static_cast<uint64_t>(sign) << 46); fixpipeParams.deqScalar = deqScalar; AscendC::Fixpipe<outputType, l0cType, AscendC::CFG_NZ>(c1Local, c, fixpipeParams); // copy L1 to GM,针对Atlas A2/A3系列产品,支持从L1直接搬出到GM AscendC::PipeBarrier<PIPE_ALL>(); AscendC::DataCopyParams dataCopyInfo; dataCopyInfo.blockCount = 1; dataCopyInfo.blockLen = baseM * baseN * sizeof(outputType) / AscendC::ONE_BLK_SIZE; AscendC::DataCopy(cGM, c1Local, dataCopyInfo); #elif defined(__NPU_ARCH__) && (__NPU_ARCH__ == 3510) uint16_t c0Size = 32; AscendC::FixpipeParamsArch3510<AscendC::CO2Layout::NZ> fixpipeParams; // NZ2NZ场景,FixpipeParamsArch3510的dstStride单位为元素个数 fixpipeParams.dstStride = baseM * c0Size; fixpipeParams.mSize = baseM; fixpipeParams.srcStride = CeilAlign(baseM, CUBE_BLOCK); fixpipeParams.nSize = baseN; // scalar quant fixpipeParams.quantPre = QuantMode_t::QF322B8_PRE; uint64_t deqScalar = static_cast<uint64_t>(*reinterpret_cast<int32_t *>(&quantScalar)); constexpr bool sign = (AscendC::IsSameType<outputType, int8_t>::value) ? true : false; deqScalar = (deqScalar & ~(static_cast<uint64_t>(1) << 46)) | (static_cast<uint64_t>(sign) << 46); fixpipeParams.deqScalar = deqScalar; AscendC::Fixpipe<outputType, l0cType, AscendC::CFG_NZ>(c1Local, c, fixpipeParams); #endif
- 示例三:通路CO1->UB。输入A矩阵和B矩阵的数据类型为half,输出C矩阵为float,默认配置使能Nz2Nd的格式转换。完整样例可以参考样例链接。
1 2 3 4 5 6 7 8 9
AscendC::LocalTensor<outputType> cUB; cUB = AscendC::LocalTensor<outputType>(AscendC::TPosition::VECOUT, 0, cSingleSize); AscendC::FixpipeParamsArch3510<AscendC::CO2Layout::ROW_MAJOR> fixpipeParams; fixpipeParams.mSize = baseM; fixpipeParams.nSize = baseN; fixpipeParams.srcStride = CeilAlign(baseM, CUBE_BLOCK); fixpipeParams.dstStride = baseN; AscendC::Fixpipe<outputType, l0cType, CFG_ROW_MAJOR_UB>(cUB, c, fixpipeParams);