aclnnFFNV3
支持的产品型号
- Atlas A2训练系列产品/Atlas 800I A2推理产品
- Atlas 推理系列产品
接口原型
每个算子分为,必须先调用“aclnnFFNV3GetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器,再调用“aclnnFFNV3”接口执行计算。
aclnnStatus aclnnFFNV3GetWorkspaceSize(const aclTensor* x, const aclTensor* weight1, const aclTensor* weight2, const aclTensor* expertTokensOptional, const aclTensor* bias1Optional, const aclTensor* bias2Optional, const aclTensor* scaleOptional, const aclTensor* offsetOptional, const aclTensor* deqScale1Optional, const aclTensor* deqScale2Optional, const aclTensor* antiquantScale1Optional, const aclTensor* antiquantScale2Optional, const aclTensor* antiquantOffset1Optional, const aclTensor* antiquantOffset2Optional, const char* activation, int64_t innerPrecise, bool tokensIndexFlag, const aclTensor* y, uint64_t* workspaceSize, aclOpExecutor** executor)
aclnnStatus aclnnFFNV3(void* workspace, uint64_t workspaceSize, aclOpExecutor* executor, aclrtStream stream)
功能描述
算子功能:该FFN算子提供MoeFFN和FFN的计算功能。在没有专家分组(expert_tokens为空)时是FFN,有专家分组时是MoeFFN。相较于接口,此接口中expertTokens由数组改为Tensor输入。 相较于接口,此接口新增支持expertTokens索引输入,用tokensIndexFlag区分。expertTokens由数组改为Tensor输入。
计算公式:
非量化场景:
量化场景:
伪量化场景:
说明: 激活层为geglu/swiglu/reglu时,性能使能需要满足门槛要求,即整网中FFN结构所对应的小算子中vector耗时30us且占比10%以上的用例方可尝试FFN融合算子;或在不知道小算子性能的情况下,尝试使能FFN,若性能劣化则不使能FFN。
aclnnFFNV3GetWorkspaceSize
参数说明:
x(aclTensor*,计算输入):必选参数,Device侧的aclTensor,公式中的输入x,数据类型支持FLOAT16、BFLOAT16、INT8,支持ND,支持输入的维度最少是2维[M, K1],最多是8维。
weight1(aclTensor*,计算输入):必选参数,Device侧的aclTensor,专家的权重数据,公式中的W1,数据类型支持FLOAT16、BFLOAT16、INT8、INT4,支持ND,输入在有/无专家时分别为[E, K1, N1]/[K1, N1]。
weight2(aclTensor*,计算输入):必选参数,Device侧的aclTensor,专家的权重数据,公式中的W2,数据类型支持FLOAT16、BFLOAT16、INT8、INT4,支持ND,输入在有/无专家时分别为[E, K2, N2]/[K2, N2]。
说明: M表示token个数,对应transform中的BS(B(Batch)表示输入样本批量大小、S(Seq-Length)表示输入样本序列长度);K1表示第一组matmul的输入通道数,对应transform中的H(Head-Size)表示隐藏层的大小);N1表示第一组matmul的输出通道数;K2表示第二组matmul的输入通道数;N2表示第二组matmul的输出通道数,对应transform中的H;E表示有专家场景的专家数。
expertTokensOptional(aclTensor*,计算输入):可选参数,Device侧的aclTensor类型,代表各专家的token数,数据类型支持INT64,支持ND,若不为空时可支持的最大长度为256个。
bias1Optional(aclTensor*,计算输入):可选参数,Device侧的aclTensor,权重数据修正值,公式中的b1,数据类型支持FLOAT16、FLOAT32、INT32,支持ND,输入在有/无专家时分别为[E, N1]/[N1]。
bias2Optional(aclTensor*,计算输入):可选参数,Device侧的aclTensor,权重数据修正值,公式中的b2,数据类型支持FLOAT16、FLOAT32、INT32,支持ND,输入在有/无专家时分别为[E, N2]/[N2]。
scaleOptional(aclTensor*,计算输入):可选参数,Device侧的aclTensor,量化参数,量化缩放系数,数据类型支持FLOAT32,支持ND,per-tensor下输入在有/无专家时均为一维向量,输入元素个数在有/无专家时分别为[E]/[1];per-channel下输入在有/无专家时为二维向量/一维向量,输入元素个数在有/无专家时分别为[E, N1]/[N1]。
offsetOptional(aclTensor*,计算输入):可选参数,Device侧的aclTensor,量化参数,量化偏移量,数据类型支持FLOAT32,支持ND,一维向量,输入元素个数在有/无专家时分别为[E]/[1]。
deqScale1Optional(aclTensor*,计算输入):可选参数,Device侧的aclTensor,量化参数,第一组matmul的反量化缩放系数,数据类型支持UINT64、INT64、FLOAT32、BFLOAT16,支持ND,输入在有/无专家时分别为[E, N1]/[N1]。
deqScale2Optional(aclTensor*,计算输入):可选参数,Device侧的aclTensor,量化参数,第二组matmul的反量化缩放系数,数据类型支持UINT64、INT64、FLOAT32、BFLOAT16,支持ND,输入在有/无专家时分别为[E, N2]/[N2]。
antiquantScale1Optional(aclTensor*,计算输入):可选参数,Device侧的aclTensor,伪量化参数,第一组matmul的缩放系数,数据类型支持FLOAT16、BFLOAT16,支持ND,per-channel下输入在有/无专家时分别为[E, N1]/[N1],per-in-group下输入在有/无专家时分别为[E, G, N1]/[G, N1]。
antiquantScale2Optional(aclTensor*,计算输入):可选参数,Device侧的aclTensor,伪量化参数,第二组matmul的缩放系数,数据类型支持FLOAT16、BFLOAT16,支持ND,per-channel下输入在有/无专家时分别为[E, N2]/[N2],per-in-group下输入在有/无专家时分别为[E, G, N2]/[G, N2]。
antiquantOffset1Optional(aclTensor*,计算输入):可选参数,Device侧的aclTensor,伪量化参数,第一组matmul的偏移量,数据类型支持FLOAT16、BFLOAT16,支持ND,per-channel下输入在有/无专家时分别为[E, N1]/[N1],per-in-group下输入在有/无专家时分别为[E, G, N1]/[G, N1]。
antiquantOffset2Optional(aclTensor*,计算输入):可选参数,Device侧的aclTensor,伪量化参数,第二组matmul的偏移量,数据类型支持FLOAT16、BFLOAT16,支持ND,per-channel下输入在有/无专家时分别为[E, N2]/[N2],per-in-group下输入在有/无专家时分别为[E, G, N2]/[G, N2]。
说明: G表示伪量化per-in-group场景下,antiquantOffsetOptional、antiquantScaleOptional的组数。
activation(char*,计算输入):必选参数,Host侧的属性值,代表使用的激活函数,公式中的activation,当前支持fastgelu/gelu/relu/silu以及geglu/swiglu/reglu。
innerPrecise(int64_t,计算输入):可选参数,Host侧的int,表示高精度或者高性能选择。数据类型支持INT64。该参数仅对FLOAT16生效,BFLOAT16和INT8不区分高精度和高性能。
- innerPrecise为0时,代表开启高精度模式,算子内部采用FLOAT32数据类型计算。
- innerPrecise为1时,代表高性能模式。
tokensIndexFlag(bool,计算输入):可选参数,Host侧的bool,指示expertTokens是否为索引值,数据类型支持bool。
- tokensIndexFlag为true时,表示expertTokens为索引值。
- tokensIndexFlag为false时,表示expertTokens为各专家的token数。
y(aclTensor*,计算输出):Device侧的aclTensor,公式中的输出y,数据类型支持FLOAT16、BFLOAT16,支持ND,输出维度与x一致。
workspaceSize(uint64_t*,出参):返回用户需要在Device侧申请的workspace大小。
executor(aclOpExecutor**,出参):返回op执行器,包含了算子计算流程。
返回值:
说明: 第一段接口完成入参校验,若出现以下错误码,则对应原因为:
- 返回161001(ACLNN_ERR_PARAM_NULLPTR):如果传入参数是必选输入,输出或者必选属性,且是空指针,则返回161001。
- 返回161002(ACLNN_ERR_PARAM_INVALID):x、weight1、weight2、activation、expertTokensOptional、bias1Optional、bias2Optional、y的数据类型和数据格式不在支持的范围内。
aclnnFFNV3
参数说明:
- workspace(void*,入参):在Device侧申请的workspace内存地址。
- workspaceSize(uint64_t,入参):在Device侧申请的workspace大小,由第一段接口aclnnFFNV3GetWorkspaceSize获取。
- executor(aclOpExecutor*,入参):op执行器,包含了算子计算流程。
- stream(aclrtStream,入参):指定执行任务的AscendCL stream流。
返回值:
约束与限制
- 有专家时,专家数据的总数需要与x的M保持一致。
- 激活层为geglu/swiglu/reglu时,仅支持无专家分组时的FLOAT16高性能场景(FLOAT16场景指类型为aclTensor的必选参数数据类型都为FLOAT16的场景),且N1=2*K2。
- 激活层为gelu/fastgelu/relu/silu时,支持有专家或无专家分组的FLOAT16高精度及高性能场景,BFLOAT16场景,量化场景及伪量化场景,且N1=K2。
- 所有场景下需满足K1=N2, K1<65536, K2<65536。
- 非量化场景不能输入量化参数和伪量化参数,量化场景不能输入伪量化参数,伪量化场景不能输入量化参数。
- 量化场景参数类型:x为INT8、weight为INT8、biasOptional为INT32、scaleOptional为FLOAT32、offsetOptional为FLOAT32,其余参数类型根据y不同分两种情况:
- y为FLOAT16,deqScaleOptional支持数据类型:UINT64、INT64、FLOAT32;
- y为BFLOAT16,deqScaleOptional支持数据类型:BFLOAT16;
- 要求deqScale1Optional与deqScale2Optional的数据类型保持一致。
- 量化场景支持scale的per-channel模式参数类型:x为INT8、weight为INT8、biasOptional为INT32、scaleOptional为FLOAT32、offsetOptional为FLOAT32,其余参数类型根据y不同分两种情况:
- y为FLOAT16,deqScaleOptional支持数据类型:UINT64、INT64;
- y为BFLOAT16,deqScaleOptional支持数据类型:BFLOAT16;
- 要求deqScale1Optional与deqScale2Optional的数据类型保持一致。
- 伪量化场景支持两种不同参数类型:
- y为FLOAT16、x为FLOAT16、biasOptional为FLOAT16,antiquantScaleOptional为FLOAT16、antiquantOffsetOptional为FLOAT16,weight支持数据类型INT8和INT4。
- y为BFLOAT16、x为BFLOAT16、biasOptional为FLOAT32,antiquantScaleOptional为BFLOAT16、antiquantOffsetOptional为BFLOAT16,weight支持数据类型INT8和INT4。
- 当weight1/weight2的数据类型为INT4时,其shape最后一维必须为偶数。
- 伪量化场景,per-in-group下,antiquantScale1Optional和antiquantOffset1Optional中的组数G要能被K1整除,antiquantScale2Optional和antiquantOffset2Optional中的组数G要能被K2整除。
- innerPrecise参数在BFLOAT16非量化场景,只能配置为0;FLOAT16非量化场景,可以配置为0或者1;量化或者伪量化场景,0和1都可配置,但是配置后不生效。
- tokensIndexFlag为true且expertTokensOptional不为空时,expertTokensOptional中的数值必须满足:如果j大于i且两者都是有效的数组索引,那么expertTokensOptional中第j个元素的数值大于或者等于expertTokensOptional中第i个元素的数值。
- Atlas 推理系列产品仅支持无专家场景非量化高性能模式,x和y仅支持2维,输入输出数据类型均为FLOAT16,激活层仅支持gelu/fastgelu/relu/silu。