aclnnApplyFusedEmaAdam

产品支持情况

产品	是否支持
[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]	√
[object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]	√
[object Object]Atlas 200I/500 A2 推理产品[object Object]	×
[object Object]Atlas 推理系列产品 [object Object]	×
[object Object]Atlas 训练系列产品[object Object]	×

功能说明

算子功能：实现FusedEmaAdam融合优化器功能。
计算公式： $(correction_{\beta_1},correction_{\beta_2},)=\begin{cases} (1,1),&biasCorrection=False\\ (1-\beta_1^{step},1-\beta_2^{step}),&biasCorrection=True \end{cases}$ $grad=\begin{cases} grad+weightDecay*var,&mode=0\\ grad,&mode=1 \end{cases}$ $m_{out}=\beta_1*m+(1-\beta_1)*grad$ $v_{out}=\beta_2*v+(1-\beta_2)*grad^2$ $m_{next}=m_{out}/correction_{\beta_1}$ $v_{next}=v_{out}/correction_{\beta_2}$ $denom=\sqrt{v_{next}}+eps$ $update=\begin{cases} m_{next}/denom,&mode=0\\ m_{next}/denom+weightDecay*var,&mode=1 \end{cases}$ $var_{out}=var-lr*update$ $s_{out}=emaDecay*s+(1-emaDecay)*var_{out}$

函数原型

每个算子分为undefined，必须先调用 “aclnnApplyFusedEmaAdamGetWorkspaceSize” 接口获取入参并根据计算流程计算所需workspace大小以及包含了算子计算流程的执行器，再调用 “aclnnApplyFusedEmaAdam” 接口执行计算。

aclnnStatus aclnnApplyFusedEmaAdamGetWorkspaceSize(const aclTensor* grad, aclTensor* varRef, aclTensor* mRef, aclTensor* vRef, aclTensor* sRef, const aclTensor* step, double lr, double emaDecay, double beta1, double beta2, double eps, int64_t mode, bool biasCorrection, double weightDecay, uint64_t* workspaceSize, aclOpExecutor** executor)
aclnnStatus aclnnApplyFusedEmaAdam(void* workspace, uint64_t workspaceSize, aclOpExecutor* executor, aclrtStream stream)

aclnnApplyFusedEmaAdamGetWorkspaceSize

参数说明：
- grad（aclTensor*，计算输入）：待更新参数对应的梯度，对应公式中的grad，Device侧的aclTensor，数据类型支持BFLOAT16，FLOAT16，FLOAT32，undefined支持ND。
- varRef（aclTensor*，计算输入/输出）：待更新参数，对应公式中的var，Device侧的aclTensor, 数据类型支持BFLOAT16，FLOAT16，FLOAT32，shape和数据类型需要和grad保持一致，undefined支持ND。
- mRef（aclTensor*，计算输入/输出）：待更新参数对应的一阶动量，对应公式中的m，Device侧的aclTensor, 数据类型支持BFLOAT16，FLOAT16，FLOAT32，shape和数据类型需要和grad保持一致，undefined支持ND。
- vRef（aclTensor*，计算输入/输出）：待更新参数对应的二阶动量，对应公式中的v，Device侧的aclTensor, 数据类型支持BFLOAT16，FLOAT16，FLOAT32，shape和数据类型需要和grad保持一致，undefined支持ND。
- sRef（aclTensor*，计算输入/输出）：待更新参数对应的EMA权重，对应公式中的s，Device侧的aclTensor, 数据类型支持BFLOAT16，FLOAT16，FLOAT32，shape和数据类型需要和grad保持一致，undefined支持ND。
- step（aclTensor*，计算输入）：优化器当前的更新次数，对应公式中的step，Device侧的aclTensor, 数据类型支持INT64，undefined支持ND。
- lr（double，计算输入）：学习率，对应公式中的lr。
- emaDecay（double，计算输入）：指数移动平均（EMA）的衰减速率，对应公式中的emaDecay。
- beta1（double，计算输入）：计算一阶动量的系数，对应公式中的 $\beta_1$ 。
- beta2（double，计算输入）：计算二阶动量的系数，对应公式中的 $\beta_2$ 。
- eps（double，计算输入）：加到分母上的项，用于数值稳定性，对应公式中的eps。
- mode（int64_t，计算输入）：控制应用L2正则化还是权重衰减，对应公式中的mode，1为adamw，0为L2。
- biasCorrection（bool，计算输入）：控制是否进行偏差校正，对应公式中的biasCorrection，true表示进行校正，false表示不做校正。
- weightDecay（double，计算输入）：权重衰减，对应公式中的weightDecay。
- workspaceSize（uint64_t*，出参）：返回需要在Device侧申请的workspace大小。
- executor（aclOpExecutor**，出参）：返回op执行器，包含了算子计算流程。
返回值：

返回aclnnStatus状态码，具体参见undefined。

[object Object]

aclnnApplyFusedEmaAdam

参数说明：
- workspace（void*，入参）：在Device侧申请的workspace内存地址。
- workspaceSize（uint64_t，入参）：在Device侧申请的workspace大小，由第一段接口aclnnApplyFusedEmaAdamGetWorkspaceSize获取。
- executor（aclOpExecutor*，入参）：op执行器，包含了算子计算流程。
- stream（aclrtStream，入参）：指定执行任务的Stream。
返回值：

返回aclnnStatus状态码，具体参见undefined。

约束说明

输入grad、var、m、v、s的数据类型和shape需要保持一致。

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考undefined。

[object Object]