vec_dup
功能说明
将一个Scalar变量或一个立即数,复制多次并填充到向量(PAR代表并行度):
函数原型
vec_dup(mask, dst, scalar, repeat_times, dst_rep_stride)
PIPE:Vector
参数说明
参数名称 |
输入/输出 |
含义 |
---|---|---|
mask |
输入 |
请参考表1中mask参数描述。 |
dst |
输出 |
目的操作数,tensor起始element,支持的数据类型:参考支持类型说明。 Tensor的scope为Unified Buffer。 |
scalar |
输入 |
被复制的源操作数,支持的数据类型为Scalar和立即数,dtype需与dst保持一致。 |
repeat_times |
输入 |
迭代次数,每一次源操作数和目的操作数的地址都会改变。取值范围:repeat_times∈[0,255]。当repeat_times为立即数时,不支持0。支持的数据类型:Scalar(int16/int32/int64/uint16/uint32/uint64)、立即数(int)、Expr(int16/int32/int64/uint16/uint32/uint64)。 |
dst_rep_stride |
输入 |
迭代间,目的操作数同一block间地址步长,取值范围:dst_rep_stride∈[0,255],单位:block_size。支持的数据类型:Scalar(int16/int32/int64/uint16/uint32/uint64)、立即数(int)、Expr(int16/int32/int64/uint16/uint32/uint64)。 |
支持类型说明
dst/src数据类型保持一致。
Atlas 200/300/500 推理产品,dst与src支持的数据类型为:Tensor(uint16, int16, float16, uint32, int32, float32)
Atlas 训练系列产品,dst与src支持的数据类型为:Tensor(uint16, int16, float16, uint32, int32, float32)
Atlas推理系列产品(Ascend 310P处理器)AI Core,dst与src支持的数据类型为:Tensor(uint16, int16, float16, uint32, int32, float32)
Atlas推理系列产品(Ascend 310P处理器)Vector Core,dst与src支持的数据类型为:Tensor(uint16, int16, float16, uint32, int32, float32)
Atlas A2训练系列产品/Atlas 800I A2推理产品,dst与src支持的数据类型为:Tensor(uint16, int16, float16, uint32, int32, float32)
Atlas 200/500 A2推理产品,dst与src支持的数据类型为:Tensor(uint8, int8,uint16, int16, float16, uint32, int32, float32)
支持的型号
Atlas 200/300/500 推理产品
Atlas 训练系列产品
Atlas推理系列产品(Ascend 310P处理器)AI Core
Atlas推理系列产品(Ascend 310P处理器)Vector Core
Atlas A2训练系列产品/Atlas 800I A2推理产品
Atlas 200/500 A2推理产品
注意事项
- 操作数地址偏移对齐要求请见通用约束。
- 用户自定义Scalar参数需自行保证不超出范围。
返回值
无。
调用示例
from tbe import tik tik_instance = tik.Tik() dtype_size = { "int8": 1, "uint8": 1, "int16": 2, "uint16": 2, "float16": 2, "int32": 4, "uint32": 4, "float32": 4, "int64": 8, } dtype = "float16" shape = (2, 128) elements = 2 * 128 # 单次迭代操作的数,当前示例一次迭代处理32个数 mask = 32 # repeat_time 表示迭代次数, repeat_times = 3 # dst_rep_stride 相邻迭代间源操作数之间得间隔,源操作数第二次迭代的头间隔第一次迭代的头为5*16 个数 dst_rep_stride = 5 dst_gm = tik_instance.Tensor(dtype, shape, name="dst_gm", scope=tik.scope_gm) dst_ub = tik_instance.Tensor(dtype, shape, name="dst_ub", scope=tik.scope_ubuf) # 被复制的源操作数,支持的数据类型为Scalar和立即数,dtype需与dst保持一致 src_scalar = tik_instance.Scalar(init_value=0, dtype="float16") tik_instance.vec_dup(mask, dst_ub, src_scalar, repeat_times, dst_rep_stride) # 输入数据搬运 gm -> ub, 此处暂不对data_move 说明,详细参数内容请参见对应的章节 tik_instance.data_move(dst_gm, dst_ub, 0, 1, 16, 0, 0) tik_instance.BuildCCE(kernel_name="vec_dup", inputs=[], outputs=[dst_gm])
输出数据(dst_gm)如下所示:
[[ 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2] [203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2 203.2]]