vec_cmpv_xx

功能说明

逐element比较两个tensor大小,如果为真则对应比特位为1,否则为0,支持多种比较模式。

函数原型

vec_cmpv_xx (dst, src0, src1, repeat_times, src0_rep_stride, src1_rep_stride)

PIPE:Vector

参数说明

表1 参数说明

参数名称

输入/输出

含义

instruction

输入

指令名称,支持以下几种比较:
  • vec_cmpv_lt:src0小于(lower-than)src1
  • vec_cmpv_gt:src0大于(greater-than)src1
  • vec_cmpv_ge:src0大于或等于(greater-equal)src1
  • vec_cmpv_eq:src0等于(equal)src1
  • vec_cmpv_ne:src0不等于(not-equal)src1
  • vec_cmpv_le:src0小于或等于(lower-equal)src1

dst

输出

目的操作数,tensor中起始element,支持uint64, uint32, uint16和uint8。

Tensor的scope为Unified Buffer

src0

输入

源操作数0,tensor中起始element。

Tensor的scope为Unified Buffer

Atlas 200/300/500 推理产品,支持的数据类型为:Tensor(float16)。

Atlas 训练系列产品,支持的数据类型为:Tensor(float16/float32)。

src1

输入

源操作数1,tensor中起始element。

Tensor的scope为Unified Buffer

数据类型需保证与src0类型一致。

repeat_times

输入

重复迭代次数。

  • repeat time等于1时,源操作数和目的操作数之间的地址可以重叠。
  • repeat time大于1时,源操作数和目的操作数之间的地址不能重叠。

src0_rep_stride

输入

相邻迭代间,源操作数0相同block地址步长。

src1_rep_stride

输入

相邻迭代间,源操作数1相同block地址步长。

返回值

无。

支持的芯片型号

Atlas 200/300/500 推理产品

Atlas 训练系列产品

注意事项

调用示例

from tbe import tik
tik_instance = tik.Tik()
src0_gm = tik_instance.Tensor("float16", (128,), name="src0_gm", scope=tik.scope_gm)
src1_gm = tik_instance.Tensor("float16", (128,), name="src1_gm", scope=tik.scope_gm)
src0_ub = tik_instance.Tensor("float16", (128,), name="src0_ub", scope=tik.scope_ubuf)
src1_ub = tik_instance.Tensor("float16", (128,), name="src1_ub", scope=tik.scope_ubuf)
dst_gm = tik_instance.Tensor("uint16", (16,), name="dst_gm", scope=tik.scope_gm)
dst_ub = tik_instance.Tensor("uint16", (16,), name="dst_ub", scope=tik.scope_ubuf)
# 拷贝用户输入数据到src ubuf
tik_instance.data_move(src0_ub, src0_gm, 0, 1, 8, 0, 0)
tik_instance.data_move(src1_ub, src1_gm, 0, 1, 8, 0, 0)
# 将dst_ub初始化为全5
tik_instance.vector_dup(16, dst_ub, 5, 1, 1, 1)
tik_instance.vec_cmpv_eq(dst_ub, src0_ub, src1_ub, 1, 8, 8)
# 将计算结果拷贝到目标gm
tik_instance.data_move(dst_gm, dst_ub, 0, 1, 1, 0, 0)

tik_instance.BuildCCE(kernel_name="vec_cmpv_eq", inputs=[src0_gm, src1_gm], outputs=[dst_gm])

结果示例:

输入数据(float16):
  src0_gm = {1,2,3,...,128}
  src1_gm = {2,2,2,...,2}
输出结果:
dst_gm = {2,0,0,0,0,0,0,0,5,5,5,5,5,5,5,5}