开发者
下载

Fixpipe

产品支持情况

产品

是否支持

Atlas 350 加速卡

支持包含FixpipeParamsV220/FixpipeParamsArch3510参数的接口。

Atlas A3 训练系列产品 / Atlas A3 推理系列产品

仅支持包含FixpipeParamsV220参数的接口。

Atlas A2 训练系列产品 / Atlas A2 推理系列产品

仅支持包含FixpipeParamsV220参数的接口。

Atlas 200I/500 A2 推理产品

仅支持包含FixpipeParamsM300参数的接口。

Atlas 推理系列产品 AI Core

x

Atlas 推理系列产品 Vector Core

x

Atlas 训练系列产品

x

功能说明

矩阵计算完成后,对结果进行处理,例如对计算结果进行量化操作,并把数据从CO1搬迁到Global Memory中。

示意图如下:

上图中Fixpipe Buffer->UB->L1 Buffer的接口,仅在NPU_ARCH 351x版本支持。

其中,FixPipe Buffer不同的量化模式对应的内存排布如下:

函数原型

  • 传入FixpipeParamsV220
    • 通路CO1->GM,不使能tensor量化功能:
      1
      2
      template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR>
      __aicore__ inline void Fixpipe(const GlobalTensor<T>& dst, const LocalTensor<U>& src, const FixpipeParamsV220& intriParams)
      
    • 通路CO1->GM,使能tensor量化功能:
      1
      2
      template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR, typename S = uint64_t, typename Std::enable_if<Std::is_same<PrimT<S>, uint64_t>::value, bool>::type = true>
      __aicore__ inline void Fixpipe(const GlobalTensor<T>& dst, const LocalTensor<U>& src, const LocalTensor<S>& cbufWorkspace, const FixpipeParamsV220& intriParams)
      
  • 传入FixpipeParamsM300
    • 通路CO1->UB,不使能tensor量化功能:
      1
      2
      template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR>
      __aicore__ inline void Fixpipe(const LocalTensor<T>& dst, const LocalTensor<U>& src, const FixpipeParamsM300& intriParams)
      
    • 通路CO1->UB,使能tensor量化功能:
      1
      2
      template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR, typename S = uint64_t, typename Std::enable_if<Std::is_same<PrimT<S>, uint64_t>::value, bool>::type = true>
      __aicore__ inline void Fixpipe(const LocalTensor<T>& dst, const LocalTensor<U>& src, const LocalTensor<S>& cbufWorkspace, const FixpipeParamsM300& intriParams)
      
    • 通路CO1->GM,不使能tensor量化功能:
      1
      2
      template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR>
      __aicore__ inline void Fixpipe(const GlobalTensor<T>& dst, const LocalTensor<U>& src, const FixpipeParamsM300& intriParams)
      
    • 通路CO1->GM,使能tensor量化功能:
      1
      2
      template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR, typename S = uint64_t, typename Std::enable_if<Std::is_same<PrimT<S>, uint64_t>::value, bool>::type = true>
      __aicore__ inline void Fixpipe(const GlobalTensor<T>& dst, const LocalTensor<U>& src, const LocalTensor<S>& cbufWorkspace, const FixpipeParamsM300& intriParams)
      
  • 传入FixpipeParamsArch3510
    • 通路CO1->L1 Buffer,不使能tensor量化功能
      1
      2
      template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR>
      __aicore__ inline void Fixpipe(const LocalTensor<T>& dst, const LocalTensor<U>& src, const FixpipeParamsArch3510<config.format>& intriParams)
      
    • 通路CO1->L1 Buffer,使能tensor量化功能
      1
      2
      template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR>
      __aicore__ inline void Fixpipe(const LocalTensor<T>& dst, const LocalTensor<U>& src, const LocalTensor<uint64_t>& cbufWorkspace, const FixpipeParamsArch3510<config.format>& intriParams)
      
    • 通路CO1->UB,不使能tensor量化功能:
      1
      2
      template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR>
      __aicore__ inline void Fixpipe(const LocalTensor<T>& dst, const LocalTensor<U>& src, const FixpipeParamsArch3510<config.format>& intriParams)
      
    • 通路CO1->UB,使能tensor量化功能:
      1
      2
      template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR>
      __aicore__ inline void Fixpipe(const LocalTensor<T>& dst, const LocalTensor<U>& src, const LocalTensor<uint64_t>& cbufWorkspace, const FixpipeParamsArch3510<config.format>& intriParams)
      
    • 通路CO1->GM,不使能tensor量化功能:
      1
      2
      template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR>
      __aicore__ inline void Fixpipe(const GlobalTensor<T>& dst, const LocalTensor<U>& src, const FixpipeParamsArch3510<config.format>& intriParams)
      
    • 通路CO1->GM,使能tensor量化功能:
      1
      2
      template <typename T, typename U, const FixpipeConfig& config = CFG_ROW_MAJOR>
      __aicore__ inline void Fixpipe(const GlobalTensor<T>& dst, const LocalTensor<U>& src, const LocalTensor<uint64_t>& cbufWorkspace, const FixpipeParamsArch3510<config.format>& intriParams)
      

参数说明

表1 模板参数说明

参数名

描述

T

目的操作数数据类型。

U

源操作数数据类型。

config

Fixpipe相关配置参数,类型为FixpipeConfig。取值如下:

  • CFG_ROW_MAJOR(默认取值):使能NZ2ND,输出数据格式为ND格式。
  • CFG_NZ: 不使能NZ2ND,输出数据格式为NZ格式。
  • CFG_COLUMN_MAJOR:使能NZ2DN,输出数据格式为DN格式。
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
struct FixpipeConfig {
    CO2Layout format;
    bool isToUB; // 用于用户指定目的地址的位置是否是UB 
};
enum class CO2Layout : uint8_t {
    NZ = 0, // 输出数据格式仍为NZ格式。
    ROW_MAJOR, // 使能NZ2ND,输出数据格式为ND格式。
    COLUMN_MAJOR, // 使能NZ2DN,输出数据格式为DN格式。
};
constexpr FixpipeConfig CFG_NZ = {CO2Layout::NZ};
constexpr FixpipeConfig CFG_ROW_MAJOR = {CO2Layout::ROW_MAJOR};
constexpr FixpipeConfig CFG_COLUMN_MAJOR = {CO2Layout::COLUMN_MAJOR};

S

cbufWorkspace的数据类型。

  • 当目的操作数、源操作数、cbufWorkspace使用基础数据类型时,模板参数S必须为uint64_t类型,否则编译失败。
  • 当目的操作数、源操作数、cbufWorkspace使用TensorTrait类型时,模板参数S的LiteType必须为uint64_t类型,否则编译失败。

模板参数S后一个模板参数仅用于上述数据类型检查,用户无需关注。

表2 参数说明

参数名称

输入/输出

含义

dst

输出

目的操作数,类型为LocalTensorGlobalTensor

  • 针对LocalTensor:

    Atlas 200I/500 A2 推理产品 ,支持的数据类型为:int8_t、uint8_t、half、bfloat16_t、float、half、int32_t。

    Atlas 350 加速卡,支持的数据类型为:int8_t、uint8_t、half、bfloat16_t、float、half、int32_t。

  • 针对GlobalTensor:

    Atlas 350 加速卡,支持的数据类型为:int8_t、uint8_t、hifloat8_t、fp8_e4m3fn_t、half、bfloat16_t、int32_t、float。

    Atlas A3 训练系列产品 / Atlas A3 推理系列产品 ,支持的数据类型为:int8_t、uint8_t、half、bfloat16_t、int32_t、float。

    Atlas A2 训练系列产品 / Atlas A2 推理系列产品 ,支持的数据类型为:int8_t、uint8_t、half、bfloat16_t、int32_t、float。

    Atlas 200I/500 A2 推理产品 ,支持的数据类型为:int8_t、uint8_t、half、bfloat16_t、int32_t、float。

    数据格式为NZ或ND或DN格式。经过Fixpipe处理,在量化操作之后,会将矩阵计算中多申请的数据删除。

src

输入

源操作数,支持的TPosition为CO1,为Mmad接口计算的结果,类型为LocalTensor数据结构的定义请参考LocalTensor。支持的数据类型为float/int32_t,支持的TPosition为CO1,数据格式为NZ格式。起始地址需要满足64B对齐。

intriParams

输入

Fixpipe搬运参数,具体定义请参考${INSTALL_DIR}/include/ascendc/basic_api/interface/kernel_struct_fixpipe.h,${INSTALL_DIR}请替换为CANN软件安装后文件存储路径。

参数说明请参考表3

cbufWorkspace

输入

量化参数,类型为LocalTensor<uint64_t>,支持的TPosition为A1。仅当quantPre为VDEQF16/VQF322B8_PRE/VREQ8时支持,quantPre介绍请参考FixpipeParamsV220/FixpipeParamsM300结构体中quantPre部分。

表3 Fixpipe搬运参数(FixpipeParamsV220/FixpipeParamsM300)结构体说明

参数名称

数据类型

含义

nSize

输入

源NZ矩阵在N方向上的大小。

  • 不使能NZ2ND功能

    若使能channelSplit功能,nSize必须为8的倍数,取值范围:nSize∈[1, 4095]。

    若不使能channelSplit功能,nSize必须为16的倍数,取值范围:nSize∈[1, 4095]。

  • 使能NZ2ND功能

    nSize取值范围 ∈[1, 4095]。

mSize

输入

源NZ矩阵在M方向上的大小。

  • 不使能NZ2ND功能

    取值范围:mSize∈[1, 65535]。

  • 使能NZ2ND功能

    取值范围:mSize∈[1, 8192]。

srcStride

输入

源NZ矩阵中相邻Z排布的起始地址偏移,取值范围:srcStride∈[0, 65535], 单位:C0_Size(16*sizeof(T),T为src的数据类型)。

dstStride

输入

  • 不使能NZ2ND功能

    目的NZ矩阵中相邻Z排布的起始地址偏移,取值不为0, 单位:datablock(32Bytes)。

  • 使能NZ2ND功能

    目的ND矩阵每一行中的元素个数,取值不为0 ,单位:element。

quantPre

输入

QuantMode_t是一个枚举类型,用于控制量化模式,默认值为QuantMode_t::NoQuant,即不使能量化功能。QuantMode_t取值如下:

  • NoQuant,不使能量化功能
  • F322F16,float cast成half,cast mode为CAST_RINT模式
  • F322BF16,float cast成bfloat16_t,cast mode为CAST_RINT模式
  • DEQF16,int32_t量化成half,scalar量化
  • VDEQF16, int32_t量化成half,tensor量化
  • QF322B8_PRE,float量化成uint8_t/int8_t,scalar量化
  • VQF322B8_PRE,float量化成uint8_t/int8_t,tensor量化
  • REQ8,int32_t量化成uint8_t/int8_t,scalar量化
  • VREQ8,int32_t量化成uint8_t/int8_t,tensor量化

deqScalar

输入

scalar量化参数,表示单个scale值,quantPre量化模式为scalar量化时需要设置该参数。支持的数据类型为uint64_t。

ndNum

输入

源NZ矩阵的数目,也就是传输ND矩阵的数目,取值范围:ndNum∈[1, 65535]

srcNdStride

输入

不同NZ矩阵起始地址之间的间隔,取值范围:srcNdStride∈[1, 512],单位:数据块(16 * C0_Size)。当ndNum配置为1时,srcNdStride配置为0即可,不生效。

dstNdStride

输入

目的相邻ND矩阵起始地址之间的偏移,取值范围:dstNdstride∈[1, 65535],单位:element。当ndNum配置为1时,dstNdStride配置为0即可,不生效。

reluEn

输入

是否使能relu的开关,false:不使能relu功能;true:使能relu功能。

unitFlag

输入

unitFlag是一种Mmad指令和Fixpipe指令细粒度的并行,使能该功能后,硬件每计算完一个分形,计算结果就会被搬出,该功能不适用于在L0C Buffer累加的场景。取值说明如下:

0:保留值;

2:使能unitFlag,硬件执行完指令之后,不会设置寄存器;

3:使能unitFlag,硬件执行完指令之后,会将unitFlag关闭。

使能该功能时,Fixpipe指令的unitFlag设置为3即可。

isChannelSplit

输入

是否使能通道拆分的功能。默认为false,不使能该功能。仅在src和dst都为float时才能使能通道拆分,且不能同时使能ChannelSplit和NZ2ND功能。

表4 FixpipeParamsArch3510结构体参数说明

参数名称

数据类型

含义

nSize

输入

源NZ矩阵在N方向上的大小。

  • 不使能NZ2ND功能

    若使能channelSplit功能,nSize必须为8的倍数,取值范围:nSize∈[1, 4095]。

    若不使能channelSplit功能,nSize必须为16的倍数,取值范围:nSize∈[1, 4095]。

  • 使能NZ2ND功能

    nSize取值范围 ∈[1, 4095]。

    • 通路CO1->UB/L1,nSize*sizeof(T)必须为32的倍数。

mSize

输入

源NZ矩阵在M方向上的大小。

取值范围:mSize∈[1, 65535]。

  • 使能NZ2DN功能,通路CO1->UB/L1,mSize*sizeof(T)必须为32的倍数

srcStride

输入

源NZ矩阵中相邻Z排布的起始地址偏移,取值范围:srcStride∈[0, 65535], 单位:C0_Size(16*sizeof(T), T为src的数据类型)。

dstStride

输入

  • 不使能NZ2ND功能

    目的NZ矩阵中相邻Z排布的起始地址偏移,取值不为0, 单位:element。

  • 使能NZ2ND/NZ2DN功能

    目的ND矩阵每一行中的元素个数,取值不为0 ,单位:element。

quantPre

输入

QuantMode_t是一个枚举类型,用于控制量化模式,默认值为QuantMode_t::NoQuant,即不使能量化功能。QuantMode_t取值如下:

  • NoQuant,不使能量化功能
  • F322F16,float cast成half,cast mode为CAST_RINT模式
  • F322BF16,float cast成bfloat16_t,cast mode为CAST_RINT模式
  • DEQF16,int32_t量化成half, scalar量化
  • VDEQF16,int32_t量化成half,tensor量化
  • QF322B8_PRE,float量化成uint8_t/int8_t,scalar量化
  • VQF322B8_PRE,float量化成uint8_t/int8_t,tensor量化
  • REQ8,int32_t量化成uint8_t/int8_t,scalar量化
  • VREQ8,int32_t量化成uint8_t/int8_t,tensor量化
  • QF322FP8_PRE,float量化成fp8_e4m3fn_t,scalar量化
  • VQF322FP8_PRE,float量化成fp8_e4m3fn_t,tensor量化
  • QF322HIF8_PRE,float量化成hifloat8_t(Half to Away Round),scalar量化
  • VQF322HIF8_PRE,float量化成hifloat8_t(Half to Away Round),tensor量化
  • QF322HIF8_PRE_HYBRID,float量化成hifloat8_t(Hybrid Round),scalar量化
  • VQF322HIF8_PRE_HYBRID,float量化成hifloat8_t(Hybrid Round),tensor量化
  • QS322BF16_PRE,int32_t量化成bfloat16_t,scalar量化
  • VQS322BF16_PRE,int32_t量化成bfloat16_t,tensor量化
  • QF322F16_PRE,float量化成half,scalar量化
  • VQF322F16_PRE,float量化成half,tensor量化
  • QF322BF16_PRE,float量化成bfloat16_t,scalar量化
  • VQF322BF16_PRE,float量化成bfloat16_t,tensor量化
  • QF322F32_PRE,float量化成float,scalar量化,该量化模式精度无法达到双万分之一,可以达到双千分之一。如果有双万分之一的精度要求,建议使用AscendDeQuant高阶API。
  • VQF322F32_PRE,float量化成float,tensor量化,该量化模式精度无法达到双万分之一,可以达到双千分之一。如果有双万分之一的精度要求,建议使用AscendDeQuant高阶API。

deqScalar

输入

scalar量化参数,表示单个scale值,quantPre量化模式为scalar量化时需要设置该参数。支持的数据类型为uint64_t。

reluEn

输入

是否使能relu的开关,false:不使能relu功能;true:使能relu功能。

unitFlag

输入

unitFlag是一种Mmad指令和Fixpipe指令细粒度的并行,使能该功能后,硬件每计算完一个分形,计算结果就会被搬出,该功能不适用于在L0C Buffer累加的场景。取值说明如下:

0:保留值;

2:使能unitFlag,硬件执行完指令之后,不会设置寄存器;

3:使能unitFlag,硬件执行完指令之后,会将unitFlag关闭。

使能该功能时,Fixpipe指令的unitFlag设置为3即可。

TransformParams

输入

TransformParams 结构体是一个基于模板参数的类型选择器,用于在编译时根据不同的CO2Layout布局类型,自动选择对应的参数类型。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
template <CO2Layout format>
struct TransformParams {};
template <>
struct TransformParams<CO2Layout::NZ> {
    __aicore__ inline TransformParams(){};
    using PARAMS = uint8_t;
};
template <>
struct TransformParams<CO2Layout::ROW_MAJOR> {
    __aicore__ inline TransformParams(){};
    using PARAMS = Nz2NdParams;
};
template <>
struct TransformParams<CO2Layout::COLUMN_MAJOR> {
    __aicore__ inline TransformParams(){};
    using PARAMS = Nz2DnParams;
};

CO2Layout 布局类型如下:

  • ROW_MAJOR

    当启用该模式时, 该指令被定义为从L0C到目标位置的数据移动,并附带NZ2ND转换。

    1
    2
    3
    4
    5
    struct Nz2NdParams {
        uint16_t ndNum = 1;
        uint16_t srcNdStride = 0;
        uint32_t dstNdStride = 0; 
    };
    

    ndNum: 源NZ矩阵的数目,也就是传输ND矩阵的数目,取值范围:ndNum∈[1, 65535]。

    srcNdStride: 不同NZ矩阵起始地址之间的间隔,取值范围:srcNdStride∈[0, 65535],单位: C0_SIZE。当ndNum配置为1时,srcNdStride配置为0即可,不生效。

    dstNdStride: 目的相邻ND矩阵起始地址之间的偏移,取值范围:dstNdstride∈[1, 2^32 -1],单位:element。当ndNum配置为1时,dstNdStride配置为0即可,不生效。

  • COLUMN_MAJOR

    当启用该模式时, 该指令被定义为从L0C到目标位置的数据移动,并附带NZ2DN转换。

    1
    2
    3
    4
    5
    6
    struct Nz2DnParams {
        uint16_t dnNum = 1;
        uint16_t srcNzMatrixStride = 0;
        uint32_t dstDnMatrixStride = 0;
        uint16_t srcNzC0Stride = 0; 
    };
    

    dnNum: 传输DN矩阵的数目,取值范围:dnNum∈[1, 65535]。

    srcNzMatrixStride: 不同源NZ矩阵的偏移(头与头),单位: C0_SIZE。

    dstDnMatrixStride: 目的相邻DN矩阵起始地址间的偏移,取值范围:dstDnMatrixdstride∈[1, 2^32 -1],单位:element。

    srcNzC0Stride: 源矩阵NZ分形中相邻行的地址偏移(头与头), 单位:C0_SIZE。

  • NZ

    当启用该模式时,为普通搬运DMA模式,表示从L0C到目标位置的正常数据移动。

dualDstCtrl

输入

双目标模式控制。当启用双目标模式控制时,L0C中的M×N矩阵将被分成两半,并同时写入两个子块(SUB BLOCK)的UB中,其中前半部分写入SUB BLOCK0,后半部分写入SUB BLOCK1。

2'b00:单目标模式,将整个矩阵写入通过subBlockId参数配置的目标UB。

2'b01:双目标模式,按M维度拆分,M / 2 * N写入每个UB, M必须为2的倍数。

2'b10:双目标模式,按N维度拆分,M * N / 2写入每个UB, N须为32的倍数。

2'b11:保留。

dualDstCtrl仅支持在普通搬运模式或NZ2ND搬运场景下使用,不支持随路功能场景。

subBlockId

输入

在启用单目标模式时指示目标UB的编号。

isChannelSplit

输入

是否使能通道拆分的功能。默认为false,不使能该功能。仅在src和dst都为float时才能使能通道拆分,且不能同时使能ChannelSplit和NZ2ND功能。

不使能NZ2ND的情况下,参数设置示例(通过Fixpipe接口搬运并去除dummy数据)和解释说明如下:

当M方向上的数据元素个数不是16的倍数时,搬入时会额外读取dummy数据,并在写入目标位置后丢弃这些dummy数据。矩阵块被定义为连续的16*16的数据块,数据块的个数为M/16向上取整, 矩阵块的长度为M*16*sizeof(T),T是数据类型。

单搬运模式:

  • nSize = 48,表示源NZ矩阵中待搬运矩阵(图中蓝色区域)在N方向上的大小为48个元素。
  • mSize = 24,表示源NZ矩阵中待搬运矩阵在M方向上的大小为24个元素。
  • srcStride = 64,表示源NZ矩阵中待搬运矩阵相邻Z排布的起始地址偏移,即下图中第一个蓝色Z排布的起始地址与第二个蓝色Z排布的起始地址之间的间隔为64 * C0_Size。
  • dstStride = 40 * C0,表示目的NZ矩阵中相邻Z排布的起始地址偏移,即下图中第一个蓝色Z排布的起始地址与第二个蓝色Z排布的起始地址之间的间隔为40 * 16个元素。
图1 不使能NZ2ND参数的单搬运模式设置示意图、

双目标控制模式:

在普通搬运模式模式下启用双目标模式如下图所示,分为按M维度拆分和按N维度拆分,按M维度拆分M必须为2的倍数,按N维度拆分N必须为2的倍数:

N方向切分:

  • nSize = 32,表示源NZ矩阵中待搬运矩阵在N方向上的大小为32个元素。
  • mSize = 48,表示源NZ矩阵中待搬运矩阵在M方向上的大小48个元素。
  • srcStride = 64,表示源NZ矩阵中待搬运矩阵相邻Z排布的起始地址偏移,即下图中第一个块Z排布矩阵的起始地址与第二个Z排布矩阵的起始地址之间的间隔为64 * C0_Size。
  • dstStride = 64 * C0,表示目的NZ矩阵中相邻Z排布的起始地址偏移,即下图中UB0中Z排布的起始地址与UB1中Z排布的起始地址之间的间隔为64 * 16个元素。

M方向切分:

  • nSize = 32,表示源NZ矩阵中待搬运矩阵在N方向上的大小为32个元素。
  • mSize = 24,表示源NZ矩阵中待搬运矩阵在M方向上的大小为48个元素。
  • srcStride = 64,表示源NZ矩阵中待搬运矩阵相邻Z排布的起始地址偏移,即下图中第一个块Z排布矩阵的起始地址与第二个Z排布矩阵的起始地址之间的间隔为64 * C0_Size。
  • dstStride = 40 * C0,表示目的NZ矩阵中相邻Z排布的起始地址偏移,即下图中UB0(或UB1)中第一个Z排布的起始地址与第二个Z排布的起始地址之间的间隔为40 * 16个元素。
图2 不使能NZ2ND参数和NZ2DN参数的双目标搬运模式设置示意图

使能NZ2ND的情况下,参数设置示例和解释说明如下:

  • ndNum = 2,表示源NZ矩阵的数目为2。图中蓝色区域为NZ矩阵1,紫色区域为NZ矩阵2。
  • nSize = 32,表示源NZ矩阵(图中蓝色区域)在N方向上的大小为32个元素。
  • mSize = 48,表示源NZ矩阵在M方向上的大小为48个元素。
  • srcStride = 64,表示源NZ矩阵中相邻Z排布的起始地址偏移,即下图中第一个蓝色Z排布的起始地址与第二个蓝色Z排布的起始地址之间的间隔为64 * C0_Size。
  • dstStride = 64,表示目的ND矩阵每一行中的元素个数为64。
  • srcNdStride = 16, 表示不同NZ矩阵起始地址之间的间隔为16 * 16 * C0_Size。
  • dstNdStride = 4096,表示目的相邻ND矩阵起始地址之间的偏移为4096个元素。
图3 使能NZ2ND参数设置示意图

单搬入模式

  • ndNum = 2,表示源NZ矩阵的数目为2。图中蓝色区域为NZ矩阵1,紫色区域为NZ矩阵2。
  • nSize = 32,表示源NZ矩阵(图中蓝色区域)在N方向上的大小为32个元素。
  • mSize = 48,表示源NZ矩阵在M方向上的大小为48个元素。
  • srcStride = 64,表示源NZ矩阵中相邻Z排布的起始地址偏移,即下图中第一个蓝色Z排布的起始地址与第二个蓝色Z排布的起始地址之间的间隔为64 * C0_Size。
  • dstStride = 64,表示目的ND矩阵每一行中的元素个数为64。
  • srcNdStride = 256, 表示不同NZ矩阵起始地址之间的间隔为256,单位为C0_Size。
  • dstNdStride = 4096,表示目的相邻ND矩阵起始地址之间的偏移为4096个元素。
图4 使能NZ2ND参数的单搬入模式设置示意图

双搬入模式

  • ndNum = 2,表示源NZ矩阵的数目为2。图中红框区域为矩阵1,蓝框区域为矩阵2。
  • nSize = 32,表示源NZ矩阵(图中红框区域或蓝框区域)在N方向上的大小为32个元素。
  • mSize = 48,表示源NZ矩阵在M方向上的大小为48个元素。
  • srcStride = 64,表示源NZ矩阵中相邻Z排布的起始地址偏移,即下图红框区域中左侧浅色Z排布矩阵的起始地址与右侧深色Z排布矩阵的起始地址之间的间隔为64 * C0_Size。
  • dstStride = 64,表示目的ND矩阵每一行中的元素个数为64。
  • ndNum = 2, 表示源NZ矩阵的数目。
  • srcNdStride = 240 , 表示不同NZ矩阵起始地址之间的间隔为240 * C0_Size。
  • dstNdStride = 4096,表示目的相邻ND矩阵起始地址之间的偏移为4096个元素。
    图5 使能NZ2ND参数双搬入模式设置示意图

使能NZ2DN的情况下,参数设置示例和解释说明如下:

单搬运模式:

  • dnNum = 2,表示源NZ矩阵的数目为2。图中蓝色区域为NZ矩阵1,紫色区域为NZ矩阵2。
  • nSize = 32,表示源NZ矩阵(图中蓝色区域)在N方向上的大小为32个元素。
  • mSize = 48,表示源NZ矩阵在M方向上的大小为48个元素。
  • srcStride = 80,表示源NZ矩阵中相邻Z排布的起始地址偏移,即下图中相邻两块蓝色Z排布的起始地址之间的间隔为80 * C0_Size。
  • dstStride = 80,表示目的DN矩阵每一行中的元素个数为80。
  • ndNum = 2, 表示源NZ矩阵的数目。
  • srcNzMatrixStride = 240,表示不同源NZ矩阵的偏移,即下图中第一个蓝色Z排布的起始地址和第二个紫色Z排布的起始地址之间的间隔为240 * C0_Size。
  • srcNzC0Stride = 1:表示源矩阵NZ分形相邻行的地址偏移,。
  • dstDnMatrixStride:表示相邻DN矩阵起始地址间的偏移为48 * 80 =3840个元素。
图6 使能NZ2DN单搬运模式示意图1

单搬运模式:

  • dnNum = 2,表示源NZ矩阵的数目为2。图中蓝色区域为NZ矩阵1,红色区域为NZ矩阵2。
  • nSize = 24,表示源NZ矩阵(图中蓝色区域)在N方向上的大小为24个元素。
  • mSize = 24,表示源NZ矩阵在M方向上的大小为24个元素。
  • srcStride = 80,表示源NZ矩阵中相邻Z排布的起始地址偏移,即下图中相邻两块蓝色Z排布的起始地址之间的间隔为80 * C0_Size。
  • dstStride = 60,表示目的DN矩阵每一行中的元素个数为80。
  • ndNum = 2, 表示源NZ矩阵的数目。
  • srcNzMatrixStride = 240,表示不同源NZ矩阵的偏移,即下图中第一个蓝色Z排布的起始地址和第二个紫色Z排布的起始地址之间的间隔为240 * C0_Size。
  • srcNzC0Stride = 2:表示源矩阵NZ分形相邻行的地址偏移。
  • dstDnMatrixStride:表示相邻DN矩阵起始地址间的偏移为48 * 60 = 2880个元素。
图7 使能NZ2DN单搬运模式示意图2

约束说明

  • ndNum=0 表示不执行,此指令将不被执行并报warning。
  • 对于量化输入为float32数据类型的说明如下:
    • 标准的IEEE 754 float32格式为:1bit符号位,8bits指数位,23bits尾数位;当前AI处理器支持的float32格式为:1bit符号位,8bits指数位,10bits尾数位。
    • 如果用户提供的是标准的IEEE 754 float32输入,API内部会处理成处理器支持的float32格式进行计算,此时如果golden数据生成过程中使用的是标准的IEEE 754 float32数据,则可能引入精度不匹配问题,需要修正golden数据的生成,将量化参数的23bits尾数位的低13bits数据位清零再参与量化计算。

调用示例

  • 示例一:通路CO1->GM。输入A矩阵和B矩阵的数据类型为half,输出C矩阵为float,默认配置使能Nz2Nd的格式转换。完整样例可以参考样例链接
     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    12
    13
    14
    15
    16
        AscendC::GlobalTensor<outputType> cGM;
        cGM.SetGlobalBuffer((__gm__ outputType *)c);
    
    #if defined(__NPU_ARCH__) && (__NPU_ARCH__ == 2201)
        AscendC::FixpipeParamsV220 fixpipeParams;
        fixpipeParams.ndNum = 1;
        fixpipeParams.srcNdStride = 0;
        fixpipeParams.dstNdStride = 0;
    #elif defined(__NPU_ARCH__) && (__NPU_ARCH__ == 3510)
        AscendC::FixpipeParamsArch3510<AscendC::CO2Layout::ROW_MAJOR> fixpipeParams;
    #endif
        fixpipeParams.mSize = baseM;
        fixpipeParams.srcStride = CeilAlign(baseM, CUBE_BLOCK);
        fixpipeParams.nSize = baseN;
        fixpipeParams.dstStride = baseN;
        AscendC::Fixpipe<outputType, l0cType, AscendC::CFG_ROW_MAJOR>(cGM, c, fixpipeParams);
    
  • 示例二:通路CO1->C1。输入A矩阵和B矩阵的数据类型为half,输出C矩阵为int8_t,不使能Nz2Nd的格式转换,使能Scalar量化。完整样例可以参考样例链接
     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
        AscendC::LocalTensor<outputType> c1Local(AscendC::TPosition::C1, c1Addr, cSizeAlignL1);
    
    #if defined(__NPU_ARCH__) && (__NPU_ARCH__ == 2201)
        uint16_t c0Size = 32;
        AscendC::FixpipeParamsV220 fixpipeParams;
        // NZ2NZ场景,FixpipeParamsV220的dstStride单位为datablock(32Bytes)
        fixpipeParams.dstStride = baseM * c0Size * sizeof(outputType) / AscendC::ONE_BLK_SIZE;
        fixpipeParams.mSize = baseM;
        fixpipeParams.srcStride = CeilAlign(baseM, CUBE_BLOCK);
        fixpipeParams.nSize = baseN;
        // scalar quant
        fixpipeParams.quantPre = QuantMode_t::QF322B8_PRE;
        uint64_t deqScalar = static_cast<uint64_t>(*reinterpret_cast<int32_t *>(&quantScalar));
        constexpr bool sign = (AscendC::IsSameType<outputType, int8_t>::value) ? true : false;
        deqScalar = (deqScalar & ~(static_cast<uint64_t>(1) << 46)) | (static_cast<uint64_t>(sign) << 46);
        fixpipeParams.deqScalar = deqScalar;
        AscendC::Fixpipe<outputType, l0cType, AscendC::CFG_NZ>(c1Local, c, fixpipeParams);
        // copy L1 to GM,针对Atlas A2/A3系列产品,支持从L1直接搬出到GM
        AscendC::PipeBarrier<PIPE_ALL>();
        AscendC::DataCopyParams dataCopyInfo;
        dataCopyInfo.blockCount = 1;
        dataCopyInfo.blockLen = baseM * baseN * sizeof(outputType) / AscendC::ONE_BLK_SIZE;
        AscendC::DataCopy(cGM, c1Local, dataCopyInfo);
    
    #elif defined(__NPU_ARCH__) && (__NPU_ARCH__ == 3510)
        uint16_t c0Size = 32;
        AscendC::FixpipeParamsArch3510<AscendC::CO2Layout::NZ> fixpipeParams;
        // NZ2NZ场景,FixpipeParamsArch3510的dstStride单位为元素个数
        fixpipeParams.dstStride = baseM * c0Size;
        fixpipeParams.mSize = baseM;
        fixpipeParams.srcStride = CeilAlign(baseM, CUBE_BLOCK);
        fixpipeParams.nSize = baseN;
        // scalar quant
        fixpipeParams.quantPre = QuantMode_t::QF322B8_PRE;
        uint64_t deqScalar = static_cast<uint64_t>(*reinterpret_cast<int32_t *>(&quantScalar));
        constexpr bool sign = (AscendC::IsSameType<outputType, int8_t>::value) ? true : false;
        deqScalar = (deqScalar & ~(static_cast<uint64_t>(1) << 46)) | (static_cast<uint64_t>(sign) << 46);
        fixpipeParams.deqScalar = deqScalar;
        AscendC::Fixpipe<outputType, l0cType, AscendC::CFG_NZ>(c1Local, c, fixpipeParams);
    #endif
    
  • 示例三:通路CO1->UB。输入A矩阵和B矩阵的数据类型为half,输出C矩阵为float,默认配置使能Nz2Nd的格式转换。完整样例可以参考样例链接
    1
    2
    3
    4
    5
    6
    7
    8
    9
    AscendC::LocalTensor<outputType> cUB;
    cUB = AscendC::LocalTensor<outputType>(AscendC::TPosition::VECOUT, 0, cSingleSize);
    
    AscendC::FixpipeParamsArch3510<AscendC::CO2Layout::ROW_MAJOR> fixpipeParams;
    fixpipeParams.mSize = baseM;
    fixpipeParams.nSize = baseN;
    fixpipeParams.srcStride = CeilAlign(baseM, CUBE_BLOCK);
    fixpipeParams.dstStride = baseN;
    AscendC::Fixpipe<outputType, l0cType, CFG_ROW_MAJOR_UB>(cUB, c, fixpipeParams);