vcgmax

函数功能

vcgmax指令抽象

计算每个block的最大元素,共计8个block,不支持混合地址。

函数原型

class Vcgmax(x, y, reduce_num)

参数说明

参数名

输入/输出

数据类型

说明

x

输入

tensor变量

输入x向量tensor,支持FP16,FP32。

reduce_num

输入

int变量

指定最后一维reduce到多少倍,此参数的取值对该指令的性能无影响。

y

输出

tensor变量

输出y向量tensor,支持FP16,FP32。

约束说明

reduce_num不能为0。

使用示例

ub_x, ub_y = Tensor("UB"), Tensor("UB")

reduce_num = 16

ub_x.load(gm_x)

out = vcgmax(ub_x, ub_y, reduce_num)()