Brcb

功能说明

给定一个输入张量,每一次取输入张量中的8个数填充到结果张量的8个block(32Bytes)中去,每个数对应一个block。

定义原型

template <typename T>
__aicore__ inline void Brcb(const LocalTensor<T>& dstLocal, const LocalTensor<T>& src0Local, const uint8_t repeatTimes, const BrcbRepeatParams& repeatParams)

参数说明

表1 参数说明

参数名称

输入/输出

含义

dstLocal

输出

目的操作数,类型为LocalTensor。支持数据类型(uint16_t/uint32_t), 地址需要32bytes对齐。

srcLocal

输入

源操作数,类型为LocalTensor。连续存储score的elements。数据类型和dst保持一致。

repeatTimes

输入

指令迭代次数,每次迭代完成8个block的数据收集,数据范围:repeatTimes∈[0,255]。

repeatParams

输入

指令迭代参数,类型为BrcbRepeatParams,参数说明参考表2

表2 BrcbRepeatParams结构体内参数说明

参数名称

输入/输出

含义

dstBlkStride

输出

单次迭代内,矢量目的操作数不同block间地址步长。

dstRepStride

输入

相邻迭代间,矢量目的操作数相同block地址步长。

支持的型号

Atlas A2训练系列产品

注意事项

调用示例