torch_npu.optim.NpuFusedAdamP

API接口

torch_npu.optim.NpuFusedAdamP(params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=0, delta=0.1, wd_ratio=0.1, nesterov=False)

功能描述

通过张量融合实现的AdamP算法。

参数说明

params：模型参数或模型参数组
lr：学习率（默认值：1e-3）
betas：用于计算梯度及其平方的运行平均值的系数（默认值：（0.9，0.999））
eps：分母防除0项，提高数值稳定性（默认值：1e-8）
weight_decay：权重衰减（默认值：0）
delta：余弦相似度阈值（默认值：0.1）
wd_ratio：权重衰减动态调整速率（默认值：0.1）
nesterov：使用nesterov动量（默认值：False）

示例

opt = torch_npu.optim.NpuFusedAdamP(model.parameters(), lr=0.1, weight_decay=0.1, wd_ratio=0.01)

父主题： torch_npu.optim