开启混合精度，保证性能不降低，如何开启混合精度请参考自动混合精度（AMP）。
分布式训练需使用DDP功能，如果用户训练脚本中包含昇腾NPU不支持的torch.nn.parallel.DataParallel接口，需要手动修改成torch.nn.parallel.DistributedDataParallel接口执行多卡训练。修改步骤可参见开启DDP模式。
若用户已明确自己的模型为动态shape场景，则可参考算子二进制配置章节进行调优。

调优前准备