调优前准备
开启混合精度,保证性能不降低,如何开启混合精度请参考
自动混合精度(AMP)
。
分布式训练需使用DDP功能,如果用户训练脚本中包含昇腾NPU不支持的torch.nn.parallel.DataParallel接口,需要手动修改成torch.nn.parallel.DistributedDataParallel接口执行多卡训练。修改步骤可参见
开启DDP模式
。
若用户已明确自己的模型为动态shape场景,则可参考
算子二进制配置
章节进行调优。
父主题:
性能调优