vcgadd指令抽象
计算每个block元素的和,共计8个block,不支持混合地址。
class Vcgadd(x, y, reduce_num)
参数名 |
输入/输出 |
数据类型 |
说明 |
---|---|---|---|
x |
输入 |
tensor变量 |
输入x向量tensor,支持FP16、FP32。 |
reduce_num |
输入 |
int变量 |
shape指定的缩减倍数。 |
y |
输出 |
tensor变量 |
输出y向量tensor,支持FP16、FP32。 |
reduce_num不能为0。
ub_x, ub_y = Tensor("UB"), Tensor("UB")
reduce_num = 16
ub_x.load(gm_x)
out = vcgadd(ub_x, ub_y, reduce_num)()