Fixpipe

产品支持情况

产品	是否支持
Atlas 350 加速卡	支持包含FixpipeParamsV220/FixpipeParamsArch3510参数的接口。
Atlas A3 训练系列产品 / Atlas A3 推理系列产品	仅支持包含FixpipeParamsV220参数的接口。
Atlas A2 训练系列产品 / Atlas A2 推理系列产品	仅支持包含FixpipeParamsV220参数的接口。
Atlas 200I/500 A2 推理产品	仅支持包含FixpipeParamsM300参数的接口。
Atlas 推理系列产品 AI Core	x
Atlas 推理系列产品 Vector Core	x
Atlas 训练系列产品	x

功能说明

矩阵计算完成后，对结果进行处理，例如对计算结果进行量化操作，并把数据从CO1搬迁到Global Memory中。

示意图如下：

上图中Fixpipe Buffer->UB->L1 Buffer的接口，仅在NPU_ARCH 351x版本支持。

其中，FixPipe Buffer不同的量化模式对应的内存排布如下：

函数原型

传入FixpipeParamsV220

通路CO1->GM，不使能tensor量化功能：

          
               template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR>
__aicore__ inline void Fixpipe(const GlobalTensor<T>& dst, const LocalTensor<U>& src, const FixpipeParamsV220& intriParams)

通路CO1->GM，使能tensor量化功能：

          
               template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR, typename S = uint64_t, typename Std::enable_if<Std::is_same<PrimT<S>, uint64_t>::value, bool>::type = true>
__aicore__ inline void Fixpipe(const GlobalTensor<T>& dst, const LocalTensor<U>& src, const LocalTensor<S>& cbufWorkspace, const FixpipeParamsV220& intriParams)

传入FixpipeParamsM300

通路CO1->UB，不使能tensor量化功能：

          
               template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR>
__aicore__ inline void Fixpipe(const LocalTensor<T>& dst, const LocalTensor<U>& src, const FixpipeParamsM300& intriParams)

通路CO1->UB，使能tensor量化功能：

          
               template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR, typename S = uint64_t, typename Std::enable_if<Std::is_same<PrimT<S>, uint64_t>::value, bool>::type = true>
__aicore__ inline void Fixpipe(const LocalTensor<T>& dst, const LocalTensor<U>& src, const LocalTensor<S>& cbufWorkspace, const FixpipeParamsM300& intriParams)

通路CO1->GM，不使能tensor量化功能：

          
               template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR>
__aicore__ inline void Fixpipe(const GlobalTensor<T>& dst, const LocalTensor<U>& src, const FixpipeParamsM300& intriParams)

通路CO1->GM，使能tensor量化功能：

          
               template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR, typename S = uint64_t, typename Std::enable_if<Std::is_same<PrimT<S>, uint64_t>::value, bool>::type = true>
__aicore__ inline void Fixpipe(const GlobalTensor<T>& dst, const LocalTensor<U>& src, const LocalTensor<S>& cbufWorkspace, const FixpipeParamsM300& intriParams)

传入FixpipeParamsArch3510

通路CO1->L1 Buffer，不使能tensor量化功能

          
               template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR>
__aicore__ inline void Fixpipe(const LocalTensor<T>& dst, const LocalTensor<U>& src, const FixpipeParamsArch3510<config.format>& intriParams)

通路CO1->L1 Buffer，使能tensor量化功能

          
               template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR>
__aicore__ inline void Fixpipe(const LocalTensor<T>& dst, const LocalTensor<U>& src, const LocalTensor<uint64_t>& cbufWorkspace, const FixpipeParamsArch3510<config.format>& intriParams)

通路CO1->UB，不使能tensor量化功能：

          
               template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR>
__aicore__ inline void Fixpipe(const LocalTensor<T>& dst, const LocalTensor<U>& src, const FixpipeParamsArch3510<config.format>& intriParams)

通路CO1->UB，使能tensor量化功能：

          
               template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR>
__aicore__ inline void Fixpipe(const LocalTensor<T>& dst, const LocalTensor<U>& src, const LocalTensor<uint64_t>& cbufWorkspace, const FixpipeParamsArch3510<config.format>& intriParams)

通路CO1->GM，不使能tensor量化功能：

          
               template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR>
__aicore__ inline void Fixpipe(const GlobalTensor<T>& dst, const LocalTensor<U>& src, const FixpipeParamsArch3510<config.format>& intriParams)

通路CO1->GM，使能tensor量化功能：

          
               template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR>
__aicore__ inline void Fixpipe(const GlobalTensor<T>& dst, const LocalTensor<U>& src, const LocalTensor<uint64_t>& cbufWorkspace, const FixpipeParamsArch3510<config.format>& intriParams)

参数说明

表1 模板参数说明

参数名

描述

目的操作数数据类型。

源操作数数据类型。

config

Fixpipe相关配置参数，类型为FixpipeConfig。取值如下：

CFG_ROW_MAJOR（默认取值）：使能NZ2ND，输出数据格式为ND格式。
CFG_NZ: 不使能NZ2ND，输出数据格式为NZ格式。
CFG_COLUMN_MAJOR：使能NZ2DN，输出数据格式为DN格式。

           
                struct FixpipeConfig {
    CO2Layout format;
    bool isToUB; // 用于用户指定目的地址的位置是否是UB 
};
enum class CO2Layout : uint8_t {
    NZ = 0, // 输出数据格式仍为NZ格式。
    ROW_MAJOR, // 使能NZ2ND，输出数据格式为ND格式。
    COLUMN_MAJOR, // 使能NZ2DN，输出数据格式为DN格式。
};
constexpr FixpipeConfig CFG_NZ = {CO2Layout::NZ};
constexpr FixpipeConfig CFG_ROW_MAJOR = {CO2Layout::ROW_MAJOR};
constexpr FixpipeConfig CFG_COLUMN_MAJOR = {CO2Layout::COLUMN_MAJOR};

cbufWorkspace的数据类型。

当目的操作数、源操作数、cbufWorkspace使用基础数据类型时，模板参数S必须为uint64_t类型，否则编译失败。
当目的操作数、源操作数、cbufWorkspace使用TensorTrait类型时，模板参数S的LiteType必须为uint64_t类型，否则编译失败。

模板参数S后一个模板参数仅用于上述数据类型检查，用户无需关注。

表2 参数说明
参数名称	输入/输出	含义
dst	输出	目的操作数，类型为LocalTensor或GlobalTensor。针对LocalTensor： Atlas 200I/500 A2 推理产品，支持的数据类型为：int8_t、uint8_t、half、bfloat16_t、float、half、int32_t。 Atlas 350 加速卡，支持的数据类型为：int8_t、uint8_t、half、bfloat16_t、float、half、int32_t。针对GlobalTensor： Atlas 350 加速卡，支持的数据类型为：int8_t、uint8_t、hifloat8_t、fp8_e4m3fn_t、half、bfloat16_t、int32_t、float。 Atlas A3 训练系列产品 / Atlas A3 推理系列产品，支持的数据类型为：int8_t、uint8_t、half、bfloat16_t、int32_t、float。 Atlas A2 训练系列产品 / Atlas A2 推理系列产品，支持的数据类型为：int8_t、uint8_t、half、bfloat16_t、int32_t、float。 Atlas 200I/500 A2 推理产品，支持的数据类型为：int8_t、uint8_t、half、bfloat16_t、int32_t、float。数据格式为NZ或ND或DN格式。经过Fixpipe处理，在量化操作之后，会将矩阵计算中多申请的数据删除。
src	输入	源操作数，支持的TPosition为CO1，为Mmad接口计算的结果，类型为LocalTensor数据结构的定义请参考LocalTensor。支持的数据类型为float/int32_t，支持的TPosition为CO1，数据格式为NZ格式。起始地址需要满足64B对齐。
intriParams	输入	Fixpipe搬运参数，具体定义请参考${INSTALL_DIR}/include/ascendc/basic_api/interface/kernel_struct_fixpipe.h，${INSTALL_DIR}请替换为CANN软件安装后文件存储路径。参数说明请参考表3。
cbufWorkspace	输入	量化参数，类型为LocalTensor<uint64_t>，支持的TPosition为A1。仅当quantPre为VDEQF16/VQF322B8_PRE/VREQ8时支持，quantPre介绍请参考FixpipeParamsV220/FixpipeParamsM300结构体中quantPre部分。

表3 Fixpipe搬运参数（FixpipeParamsV220/FixpipeParamsM300）结构体说明
参数名称	数据类型	含义
nSize	输入	源NZ矩阵在N方向上的大小。不使能NZ2ND功能若使能channelSplit功能，nSize必须为8的倍数，取值范围：nSize∈[1, 4095]。若不使能channelSplit功能，nSize必须为16的倍数，取值范围：nSize∈[1, 4095]。使能NZ2ND功能 nSize取值范围 ∈[1, 4095]。
mSize	输入	源NZ矩阵在M方向上的大小。不使能NZ2ND功能取值范围：mSize∈[1, 65535]。使能NZ2ND功能取值范围：mSize∈[1, 8192]。
srcStride	输入	源NZ矩阵中相邻Z排布的起始地址偏移，取值范围：srcStride∈[0, 65535]，单位：C0_Size(16*sizeof(T)，T为src的数据类型)。
dstStride	输入	不使能NZ2ND功能目的NZ矩阵中相邻Z排布的起始地址偏移，取值不为0，单位：datablock(32Bytes)。使能NZ2ND功能目的ND矩阵每一行中的元素个数，取值不为0 ，单位：element。
quantPre	输入	QuantMode_t是一个枚举类型，用于控制量化模式，默认值为QuantMode_t::NoQuant，即不使能量化功能。QuantMode_t取值如下： NoQuant，不使能量化功能 F322F16，float cast成half，cast mode为CAST_RINT模式 F322BF16，float cast成bfloat16_t，cast mode为CAST_RINT模式 DEQF16，int32_t量化成half，scalar量化 VDEQF16， int32_t量化成half，tensor量化 QF322B8_PRE，float量化成uint8_t/int8_t，scalar量化 VQF322B8_PRE，float量化成uint8_t/int8_t，tensor量化 REQ8，int32_t量化成uint8_t/int8_t，scalar量化 VREQ8，int32_t量化成uint8_t/int8_t，tensor量化
deqScalar	输入	scalar量化参数，表示单个scale值，quantPre量化模式为scalar量化时需要设置该参数。支持的数据类型为uint64_t。
ndNum	输入	源NZ矩阵的数目，也就是传输ND矩阵的数目，取值范围：ndNum∈[1, 65535]
srcNdStride	输入	不同NZ矩阵起始地址之间的间隔，取值范围：srcNdStride∈[1, 512]，单位：数据块（16 * C0_Size）。当ndNum配置为1时，srcNdStride配置为0即可，不生效。
dstNdStride	输入	目的相邻ND矩阵起始地址之间的偏移，取值范围：dstNdstride∈[1, 65535]，单位：element。当ndNum配置为1时，dstNdStride配置为0即可，不生效。
reluEn	输入	是否使能relu的开关，false：不使能relu功能；true：使能relu功能。
unitFlag	输入	unitFlag是一种Mmad指令和Fixpipe指令细粒度的并行，使能该功能后，硬件每计算完一个分形，计算结果就会被搬出，该功能不适用于在L0C Buffer累加的场景。取值说明如下： 0：保留值； 2：使能unitFlag，硬件执行完指令之后，不会设置寄存器； 3：使能unitFlag，硬件执行完指令之后，会将unitFlag关闭。使能该功能时，Fixpipe指令的unitFlag设置为3即可。
isChannelSplit	输入	是否使能通道拆分的功能。默认为false，不使能该功能。仅在src和dst都为float时才能使能通道拆分，且不能同时使能ChannelSplit和NZ2ND功能。

表4 FixpipeParamsArch3510结构体参数说明

参数名称

数据类型

含义

nSize

输入

源NZ矩阵在N方向上的大小。

不使能NZ2ND功能
 若使能channelSplit功能，nSize必须为8的倍数，取值范围：nSize∈[1, 4095]。

若不使能channelSplit功能，nSize必须为16的倍数，取值范围：nSize∈[1, 4095]。

使能NZ2ND功能
 nSize取值范围 ∈[1, 4095]。
- 通路CO1->UB/L1，nSize*sizeof(T)必须为32的倍数。

mSize

输入

源NZ矩阵在M方向上的大小。

取值范围：mSize∈[1, 65535]。

使能NZ2DN功能，通路CO1->UB/L1，mSize*sizeof(T)必须为32的倍数

srcStride

输入

源NZ矩阵中相邻Z排布的起始地址偏移，取值范围：srcStride∈[0, 65535]，单位：C0_Size(16*sizeof(T), T为src的数据类型)。

dstStride

输入

不使能NZ2ND功能
 目的NZ矩阵中相邻Z排布的起始地址偏移，取值不为0，单位：element。

使能NZ2ND/NZ2DN功能
 目的ND矩阵每一行中的元素个数，取值不为0 ，单位：element。

quantPre

输入

QuantMode_t是一个枚举类型，用于控制量化模式，默认值为QuantMode_t::NoQuant，即不使能量化功能。QuantMode_t取值如下：

NoQuant，不使能量化功能
F322F16，float cast成half，cast mode为CAST_RINT模式
F322BF16，float cast成bfloat16_t，cast mode为CAST_RINT模式
DEQF16，int32_t量化成half， scalar量化
VDEQF16，int32_t量化成half，tensor量化
QF322B8_PRE，float量化成uint8_t/int8_t，scalar量化
VQF322B8_PRE，float量化成uint8_t/int8_t，tensor量化
REQ8，int32_t量化成uint8_t/int8_t，scalar量化
VREQ8，int32_t量化成uint8_t/int8_t，tensor量化
QF322FP8_PRE，float量化成fp8_e4m3fn_t，scalar量化
VQF322FP8_PRE，float量化成fp8_e4m3fn_t，tensor量化
QF322HIF8_PRE，float量化成hifloat8_t(Half to Away Round)，scalar量化
VQF322HIF8_PRE，float量化成hifloat8_t(Half to Away Round)，tensor量化
QF322HIF8_PRE_HYBRID，float量化成hifloat8_t(Hybrid Round)，scalar量化
VQF322HIF8_PRE_HYBRID，float量化成hifloat8_t(Hybrid Round)，tensor量化
QS322BF16_PRE，int32_t量化成bfloat16_t，scalar量化
VQS322BF16_PRE，int32_t量化成bfloat16_t，tensor量化
QF322F16_PRE，float量化成half，scalar量化
VQF322F16_PRE，float量化成half，tensor量化
QF322BF16_PRE，float量化成bfloat16_t，scalar量化
VQF322BF16_PRE，float量化成bfloat16_t，tensor量化
QF322F32_PRE，float量化成float，scalar量化，该量化模式精度无法达到双万分之一，可以达到双千分之一。如果有双万分之一的精度要求，建议使用AscendDeQuant高阶API。
VQF322F32_PRE，float量化成float，tensor量化，该量化模式精度无法达到双万分之一，可以达到双千分之一。如果有双万分之一的精度要求，建议使用AscendDeQuant高阶API。

deqScalar

输入

scalar量化参数，表示单个scale值，quantPre量化模式为scalar量化时需要设置该参数。支持的数据类型为uint64_t。

reluEn

输入

是否使能relu的开关，false：不使能relu功能；true：使能relu功能。

unitFlag

输入

unitFlag是一种Mmad指令和Fixpipe指令细粒度的并行，使能该功能后，硬件每计算完一个分形，计算结果就会被搬出，该功能不适用于在L0C Buffer累加的场景。取值说明如下：

0：保留值；

2：使能unitFlag，硬件执行完指令之后，不会设置寄存器；

3：使能unitFlag，硬件执行完指令之后，会将unitFlag关闭。

使能该功能时，Fixpipe指令的unitFlag设置为3即可。

TransformParams

输入

TransformParams 结构体是一个基于模板参数的类型选择器，用于在编译时根据不同的CO2Layout布局类型，自动选择对应的参数类型。

           
            
              
              
                template <CO2Layout format>
struct TransformParams {};
template <>
struct TransformParams<CO2Layout::NZ> {
    __aicore__ inline TransformParams(){};
    using PARAMS = uint8_t;
};
template <>
struct TransformParams<CO2Layout::ROW_MAJOR> {
    __aicore__ inline TransformParams(){};
    using PARAMS = Nz2NdParams;
};
template <>
struct TransformParams<CO2Layout::COLUMN_MAJOR> {
    __aicore__ inline TransformParams(){};
    using PARAMS = Nz2DnParams;
};

               

             

           
          

CO2Layout 布局类型如下：

ROW_MAJOR

当启用该模式时，该指令被定义为从L0C到目标位置的数据移动，并附带NZ2ND转换。

             
                  struct Nz2NdParams {
    uint16_t ndNum = 1;
    uint16_t srcNdStride = 0;
    uint32_t dstNdStride = 0; 
};

ndNum: 源NZ矩阵的数目，也就是传输ND矩阵的数目，取值范围：ndNum∈[1, 65535]。

srcNdStride: 不同NZ矩阵起始地址之间的间隔，取值范围：srcNdStride∈[0, 65535]，单位: C0_SIZE。当ndNum配置为1时，srcNdStride配置为0即可，不生效。

dstNdStride: 目的相邻ND矩阵起始地址之间的偏移，取值范围：dstNdstride∈[1, 2^32 -1]，单位：element。当ndNum配置为1时，dstNdStride配置为0即可，不生效。

COLUMN_MAJOR

当启用该模式时，该指令被定义为从L0C到目标位置的数据移动，并附带NZ2DN转换。

             
                  struct Nz2DnParams {
    uint16_t dnNum = 1;
    uint16_t srcNzMatrixStride = 0;
    uint32_t dstDnMatrixStride = 0;
    uint16_t srcNzC0Stride = 0; 
};

dnNum: 传输DN矩阵的数目，取值范围：dnNum∈[1, 65535]。

srcNzMatrixStride: 不同源NZ矩阵的偏移（头与头），单位: C0_SIZE。

dstDnMatrixStride: 目的相邻DN矩阵起始地址间的偏移，取值范围：dstDnMatrixdstride∈[1, 2^32 -1]，单位：element。

srcNzC0Stride: 源矩阵NZ分形中相邻行的地址偏移（头与头）, 单位：C0_SIZE。

NZ
当启用该模式时，为普通搬运DMA模式，表示从L0C到目标位置的正常数据移动。

dualDstCtrl

输入

双目标模式控制。当启用双目标模式控制时，L0C中的M×N矩阵将被分成两半，并同时写入两个子块（SUB BLOCK）的UB中，其中前半部分写入SUB BLOCK0，后半部分写入SUB BLOCK1。

2'b00：单目标模式，将整个矩阵写入通过subBlockId参数配置的目标UB。

2'b01：双目标模式，按M维度拆分，M / 2 * N写入每个UB, M必须为2的倍数。

2'b10：双目标模式，按N维度拆分，M * N / 2写入每个UB, N须为32的倍数。

2'b11：保留。

dualDstCtrl仅支持在普通搬运模式或NZ2ND搬运场景下使用，不支持随路功能场景。

subBlockId

输入

在启用单目标模式时指示目标UB的编号。

isChannelSplit

输入

是否使能通道拆分的功能。默认为false，不使能该功能。仅在src和dst都为float时才能使能通道拆分，且不能同时使能ChannelSplit和NZ2ND功能。

不使能NZ2ND的情况下，参数设置示例（通过Fixpipe接口搬运并去除dummy数据）和解释说明如下：

当M方向上的数据元素个数不是16的倍数时，搬入时会额外读取dummy数据，并在写入目标位置后丢弃这些dummy数据。矩阵块被定义为连续的16*16的数据块，数据块的个数为M/16向上取整，矩阵块的长度为M*16*sizeof(T)，T是数据类型。

单搬运模式：

nSize = 48，表示源NZ矩阵中待搬运矩阵（图中蓝色区域）在N方向上的大小为48个元素。
mSize = 24，表示源NZ矩阵中待搬运矩阵在M方向上的大小为24个元素。
srcStride = 64，表示源NZ矩阵中待搬运矩阵相邻Z排布的起始地址偏移，即下图中第一个蓝色Z排布的起始地址与第二个蓝色Z排布的起始地址之间的间隔为64 * C0_Size。
dstStride = 40 * C0，表示目的NZ矩阵中相邻Z排布的起始地址偏移，即下图中第一个蓝色Z排布的起始地址与第二个蓝色Z排布的起始地址之间的间隔为40 * 16个元素。

图1 不使能NZ2ND参数的单搬运模式设置示意图、

双目标控制模式：

在普通搬运模式模式下启用双目标模式如下图所示，分为按M维度拆分和按N维度拆分，按M维度拆分M必须为2的倍数，按N维度拆分N必须为2的倍数：

N方向切分：

nSize = 32，表示源NZ矩阵中待搬运矩阵在N方向上的大小为32个元素。
mSize = 48，表示源NZ矩阵中待搬运矩阵在M方向上的大小48个元素。
srcStride = 64，表示源NZ矩阵中待搬运矩阵相邻Z排布的起始地址偏移，即下图中第一个块Z排布矩阵的起始地址与第二个Z排布矩阵的起始地址之间的间隔为64 * C0_Size。
dstStride = 64 * C0，表示目的NZ矩阵中相邻Z排布的起始地址偏移，即下图中UB0中Z排布的起始地址与UB1中Z排布的起始地址之间的间隔为64 * 16个元素。

M方向切分：

nSize = 32，表示源NZ矩阵中待搬运矩阵在N方向上的大小为32个元素。
mSize = 24，表示源NZ矩阵中待搬运矩阵在M方向上的大小为48个元素。
srcStride = 64，表示源NZ矩阵中待搬运矩阵相邻Z排布的起始地址偏移，即下图中第一个块Z排布矩阵的起始地址与第二个Z排布矩阵的起始地址之间的间隔为64 * C0_Size。
dstStride = 40 * C0，表示目的NZ矩阵中相邻Z排布的起始地址偏移，即下图中UB0（或UB1）中第一个Z排布的起始地址与第二个Z排布的起始地址之间的间隔为40 * 16个元素。

图2 不使能NZ2ND参数和NZ2DN参数的双目标搬运模式设置示意图

使能NZ2ND的情况下，参数设置示例和解释说明如下：

ndNum = 2，表示源NZ矩阵的数目为2。图中蓝色区域为NZ矩阵1，紫色区域为NZ矩阵2。

nSize = 32，表示源NZ矩阵（图中蓝色区域）在N方向上的大小为32个元素。
mSize = 48，表示源NZ矩阵在M方向上的大小为48个元素。
srcStride = 64，表示源NZ矩阵中相邻Z排布的起始地址偏移，即下图中第一个蓝色Z排布的起始地址与第二个蓝色Z排布的起始地址之间的间隔为64 * C0_Size。
dstStride = 64，表示目的ND矩阵每一行中的元素个数为64。
srcNdStride = 16, 表示不同NZ矩阵起始地址之间的间隔为16 * 16 * C0_Size。
dstNdStride = 4096，表示目的相邻ND矩阵起始地址之间的偏移为4096个元素。

图3 使能NZ2ND参数设置示意图

单搬入模式

ndNum = 2，表示源NZ矩阵的数目为2。图中蓝色区域为NZ矩阵1，紫色区域为NZ矩阵2。

nSize = 32，表示源NZ矩阵（图中蓝色区域）在N方向上的大小为32个元素。
mSize = 48，表示源NZ矩阵在M方向上的大小为48个元素。
srcStride = 64，表示源NZ矩阵中相邻Z排布的起始地址偏移，即下图中第一个蓝色Z排布的起始地址与第二个蓝色Z排布的起始地址之间的间隔为64 * C0_Size。
dstStride = 64，表示目的ND矩阵每一行中的元素个数为64。
srcNdStride = 256, 表示不同NZ矩阵起始地址之间的间隔为256，单位为C0_Size。
dstNdStride = 4096，表示目的相邻ND矩阵起始地址之间的偏移为4096个元素。

图4 使能NZ2ND参数的单搬入模式设置示意图

双搬入模式

ndNum = 2，表示源NZ矩阵的数目为2。图中红框区域为矩阵1，蓝框区域为矩阵2。

nSize = 32，表示源NZ矩阵（图中红框区域或蓝框区域）在N方向上的大小为32个元素。
mSize = 48，表示源NZ矩阵在M方向上的大小为48个元素。
srcStride = 64，表示源NZ矩阵中相邻Z排布的起始地址偏移，即下图红框区域中左侧浅色Z排布矩阵的起始地址与右侧深色Z排布矩阵的起始地址之间的间隔为64 * C0_Size。
dstStride = 64，表示目的ND矩阵每一行中的元素个数为64。
ndNum = 2, 表示源NZ矩阵的数目。
srcNdStride = 240 , 表示不同NZ矩阵起始地址之间的间隔为240 * C0_Size。
dstNdStride = 4096，表示目的相邻ND矩阵起始地址之间的偏移为4096个元素。
图5 使能NZ2ND参数双搬入模式设置示意图

使能NZ2DN的情况下，参数设置示例和解释说明如下：

单搬运模式：

dnNum = 2，表示源NZ矩阵的数目为2。图中蓝色区域为NZ矩阵1，紫色区域为NZ矩阵2。

nSize = 32，表示源NZ矩阵（图中蓝色区域）在N方向上的大小为32个元素。
mSize = 48，表示源NZ矩阵在M方向上的大小为48个元素。
srcStride = 80，表示源NZ矩阵中相邻Z排布的起始地址偏移，即下图中相邻两块蓝色Z排布的起始地址之间的间隔为80 * C0_Size。
dstStride = 80，表示目的DN矩阵每一行中的元素个数为80。
ndNum = 2, 表示源NZ矩阵的数目。
srcNzMatrixStride = 240，表示不同源NZ矩阵的偏移，即下图中第一个蓝色Z排布的起始地址和第二个紫色Z排布的起始地址之间的间隔为240 * C0_Size。
srcNzC0Stride = 1：表示源矩阵NZ分形相邻行的地址偏移，。
dstDnMatrixStride：表示相邻DN矩阵起始地址间的偏移为48 * 80 =3840个元素。

图6 使能NZ2DN单搬运模式示意图1

单搬运模式：

dnNum = 2，表示源NZ矩阵的数目为2。图中蓝色区域为NZ矩阵1，红色区域为NZ矩阵2。

nSize = 24，表示源NZ矩阵（图中蓝色区域）在N方向上的大小为24个元素。
mSize = 24，表示源NZ矩阵在M方向上的大小为24个元素。
srcStride = 80，表示源NZ矩阵中相邻Z排布的起始地址偏移，即下图中相邻两块蓝色Z排布的起始地址之间的间隔为80 * C0_Size。
dstStride = 60，表示目的DN矩阵每一行中的元素个数为80。
ndNum = 2, 表示源NZ矩阵的数目。
srcNzMatrixStride = 240，表示不同源NZ矩阵的偏移，即下图中第一个蓝色Z排布的起始地址和第二个紫色Z排布的起始地址之间的间隔为240 * C0_Size。
srcNzC0Stride = 2：表示源矩阵NZ分形相邻行的地址偏移。
dstDnMatrixStride：表示相邻DN矩阵起始地址间的偏移为48 * 60 = 2880个元素。

图7 使能NZ2DN单搬运模式示意图2

约束说明

ndNum=0 表示不执行，此指令将不被执行并报warning。
对于量化输入为float32数据类型的说明如下：
- 标准的IEEE 754 float32格式为：1bit符号位，8bits指数位，23bits尾数位；当前AI处理器支持的float32格式为：1bit符号位，8bits指数位，10bits尾数位。
- 如果用户提供的是标准的IEEE 754 float32输入，API内部会处理成处理器支持的float32格式进行计算，此时如果golden数据生成过程中使用的是标准的IEEE 754 float32数据，则可能引入精度不匹配问题，需要修正golden数据的生成，将量化参数的23bits尾数位的低13bits数据位清零再参与量化计算。

调用示例

示例一：通路CO1->GM。输入A矩阵和B矩阵的数据类型为half，输出C矩阵为float，默认配置使能Nz2Nd的格式转换。完整样例可以参考样例链接。

        
                 AscendC::GlobalTensor<outputType> cGM;
    cGM.SetGlobalBuffer((__gm__ outputType *)c);

#if defined(__NPU_ARCH__) && (__NPU_ARCH__ == 2201)
    AscendC::FixpipeParamsV220 fixpipeParams;
    fixpipeParams.ndNum = 1;
    fixpipeParams.srcNdStride = 0;
    fixpipeParams.dstNdStride = 0;
#elif defined(__NPU_ARCH__) && (__NPU_ARCH__ == 3510)
    AscendC::FixpipeParamsArch3510<AscendC::CO2Layout::ROW_MAJOR> fixpipeParams;
#endif
    fixpipeParams.mSize = baseM;
    fixpipeParams.srcStride = CeilAlign(baseM, CUBE_BLOCK);
    fixpipeParams.nSize = baseN;
    fixpipeParams.dstStride = baseN;
    AscendC::Fixpipe<outputType, l0cType, AscendC::CFG_ROW_MAJOR>(cGM, c, fixpipeParams);

示例二：通路CO1->C1。输入A矩阵和B矩阵的数据类型为half，输出C矩阵为int8_t，不使能Nz2Nd的格式转换，使能Scalar量化。完整样例可以参考样例链接。

        
         
           
           
                 AscendC::LocalTensor<outputType> c1Local(AscendC::TPosition::C1, c1Addr, cSizeAlignL1);

#if defined(__NPU_ARCH__) && (__NPU_ARCH__ == 2201)
    uint16_t c0Size = 32;
    AscendC::FixpipeParamsV220 fixpipeParams;
    // NZ2NZ场景，FixpipeParamsV220的dstStride单位为datablock（32Bytes）
    fixpipeParams.dstStride = baseM * c0Size * sizeof(outputType) / AscendC::ONE_BLK_SIZE;
    fixpipeParams.mSize = baseM;
    fixpipeParams.srcStride = CeilAlign(baseM, CUBE_BLOCK);
    fixpipeParams.nSize = baseN;
    // scalar quant
    fixpipeParams.quantPre = QuantMode_t::QF322B8_PRE;
    uint64_t deqScalar = static_cast<uint64_t>(*reinterpret_cast<int32_t *>(&quantScalar));
    constexpr bool sign = (AscendC::IsSameType<outputType, int8_t>::value) ? true : false;
    deqScalar = (deqScalar & ~(static_cast<uint64_t>(1) << 46)) | (static_cast<uint64_t>(sign) << 46);
    fixpipeParams.deqScalar = deqScalar;
    AscendC::Fixpipe<outputType, l0cType, AscendC::CFG_NZ>(c1Local, c, fixpipeParams);
    // copy L1 to GM，针对Atlas A2/A3系列产品，支持从L1直接搬出到GM
    AscendC::PipeBarrier<PIPE_ALL>();
    AscendC::DataCopyParams dataCopyInfo;
    dataCopyInfo.blockCount = 1;
    dataCopyInfo.blockLen = baseM * baseN * sizeof(outputType) / AscendC::ONE_BLK_SIZE;
    AscendC::DataCopy(cGM, c1Local, dataCopyInfo);

#elif defined(__NPU_ARCH__) && (__NPU_ARCH__ == 3510)
    uint16_t c0Size = 32;
    AscendC::FixpipeParamsArch3510<AscendC::CO2Layout::NZ> fixpipeParams;
    // NZ2NZ场景，FixpipeParamsArch3510的dstStride单位为元素个数
    fixpipeParams.dstStride = baseM * c0Size;
    fixpipeParams.mSize = baseM;
    fixpipeParams.srcStride = CeilAlign(baseM, CUBE_BLOCK);
    fixpipeParams.nSize = baseN;
    // scalar quant
    fixpipeParams.quantPre = QuantMode_t::QF322B8_PRE;
    uint64_t deqScalar = static_cast<uint64_t>(*reinterpret_cast<int32_t *>(&quantScalar));
    constexpr bool sign = (AscendC::IsSameType<outputType, int8_t>::value) ? true : false;
    deqScalar = (deqScalar & ~(static_cast<uint64_t>(1) << 46)) | (static_cast<uint64_t>(sign) << 46);
    fixpipeParams.deqScalar = deqScalar;
    AscendC::Fixpipe<outputType, l0cType, AscendC::CFG_NZ>(c1Local, c, fixpipeParams);
#endif

            

          

        
       

示例三：通路CO1->UB。输入A矩阵和B矩阵的数据类型为half，输出C矩阵为float，默认配置使能Nz2Nd的格式转换。完整样例可以参考样例链接。

        
             AscendC::LocalTensor<outputType> cUB;
cUB = AscendC::LocalTensor<outputType>(AscendC::TPosition::VECOUT, 0, cSingleSize);

AscendC::FixpipeParamsArch3510<AscendC::CO2Layout::ROW_MAJOR> fixpipeParams;
fixpipeParams.mSize = baseM;
fixpipeParams.nSize = baseN;
fixpipeParams.srcStride = CeilAlign(baseM, CUBE_BLOCK);
fixpipeParams.dstStride = baseN;
AscendC::Fixpipe<outputType, l0cType, CFG_ROW_MAJOR_UB>(cUB, c, fixpipeParams);

父主题： 数据搬运