LogSoftMax

产品支持情况

产品	是否支持
Atlas 350 加速卡	√
Atlas A3 训练系列产品 / Atlas A3 推理系列产品	√
Atlas A2 训练系列产品 / Atlas A2 推理系列产品	√
Atlas 200I/500 A2 推理产品	x
Atlas 推理系列产品 AI Core	√
Atlas 推理系列产品 Vector Core	x
Atlas 训练系列产品	x

功能说明

对输入tensor做LogSoftmax计算。计算公式如下：

$\text{[math]}$

为方便理解，通过Python脚本实现的方式表达计算公式如下，其中src是源操作数（输入），dst、sum、max为目的操作数（输出）。

      
           def log_softmax(src):
    #基于last轴进行rowmax(按行取最大值)处理
    max = np.max(src, axis=-1, keepdims=True)
    sub = src - max
    exp = np.exp(sub)
    #基于last轴进行rowsum(按行求和)处理
    sum = np.sum(exp, axis=-1, keepdims=True)
    dst = exp / sum
    dst = np.log10(dst)
    return dst, max, sum

实现原理

以float类型，ND格式，shape为[m, k]的输入Tensor为例，描述LogSoftMax高阶API内部算法框图，如下图所示。

图1 LogSoftMax算法框图

计算过程分为如下几步，均在Vector上进行：

reducemax步骤：对输入x的每一行数据求最大值得到[m, 1]，计算结果会保存到一个临时空间temp中；
broadcast步骤：对temp中的数据([m, 1])做一个按datablock为单位的填充，比如float类型下，把[m, 1]扩展成[m, 8]，同时输出max；
sub步骤：对输入x的所有数据按行减去max；
exp步骤：对sub之后的所有数据求exp；
reducesum步骤：对exp后的结果的每一行数据求和得到[m, 1]，计算结果会保存到临时空间temp中；
broadcast步骤：对temp([m, 1])做一个按datablock为单位的填充，比如float类型下，把[m, 1]扩展成[m, 8]，同时输出sum；
div步骤：对exp结果的所有数据按行除以sum；
log步骤：对div后的所有数据按行做log10计算，输出y。

函数原型

      
           template <typename T, bool isReuseSource = false, bool isDataFormatNZ = false>
__aicore__ inline void LogSoftMax(const LocalTensor<T>& dst, const LocalTensor<T>& sum, const LocalTensor<T>& max, const LocalTensor<T>& src, const LocalTensor<uint8_t>& sharedTmpBuffer, const LogSoftMaxTiling& tiling, const SoftMaxShapeInfo& softmaxShapeInfo = {})

由于该接口的内部实现中涉及复杂的数学计算，需要额外的临时空间来存储计算过程中的中间变量。临时空间支持开发者通过sharedTmpBuffer入参传入。临时空间大小BufferSize的获取方式如下：通过LogSoftMax Tiling中提供的接口获取空间范围的大小。

参数说明

表1 模板参数说明
参数名	描述
T	操作数的数据类型。 Atlas 350 加速卡，支持的数据类型为：half、float。 Atlas A3 训练系列产品 / Atlas A3 推理系列产品，支持的数据类型为：half、float。 Atlas A2 训练系列产品 / Atlas A2 推理系列产品，支持的数据类型为：half、float。 Atlas 推理系列产品 AI Core，支持的数据类型为：half、float。
isReuseSource	是否允许修改源操作数。该参数预留，传入默认值false即可。
isDataFormatNZ	源操作数是否为NZ格式。默认值为false。

表2 接口参数说明

参数名

输入/输出

描述

dst

输出

目的操作数。