使用场景 典型场景:开启混合精度进行一般模型训练的场景。梯度累加场景:每计算一个batch的梯度,进行梯度的累加而不是清零,当累加到一定次数再更新参数、清零梯度的场景。多Models,Losses,and Optimizers场景:神经网络中同时存在多个损失函数和优化器的场景。DDP场景(one NPU per process):在分布式训练中,一个进程在一个NPU上运行的场景。 目前针对PyTorch1.8.1框架仅支持以上4种场景,更多场景使用请参考官方文档。 父主题: AMP使用说明