调优前准备

  1. 开启混合精度,保证性能不降低,如何开启混合精度请参考自动混合精度(AMP)
  2. 分布式训练需使用DDP功能,如果用户训练脚本中包含昇腾NPU不支持的torch.nn.parallel.DataParallel接口,需要手动修改成torch.nn.parallel.DistributedDataParallel接口执行多卡训练。修改步骤可参见开启DDP模式
  3. 若用户已明确自己的模型为动态shape场景,则可参考算子二进制配置章节进行调优。