为了提升模型运行速度，建议开启使用二进制算子，参考环境准备安装二进制算子包后，参考如下方式开启：
- 单卡场景下，修改训练入口文件例如main.py文件，在import torch_npu下方添加加粗字体信息。
```
import torch
import torch_npu
torch_npu.npu.set_compile_mode(jit_compile=False)
......
```
- 多卡场景下，如果拉起多卡训练的方式为mp.spawn，则torch_npu.npu.set_compile_mode(jit_compile=False)必须加在进程拉起的主函数中才能使能二进制，否则使能方式与单卡场景相同。
```
if is_distributed:
    mp.spawn(main_worker, nprocs=ngpus_per_node, args=(ngpus_per_node, args))
else:
    main_worker(args.gpu, ngpus_per_node, args)
def main_worker(gpu, ngpus_per_node, args):
    # 加在进程拉起的主函数中
   torch_npu.npu.set_compile_mode(jit_compile=False)
    ......
```

如果启用了“distributed”参数，迁移后会生成如下run_distributed_npu.sh文件，在执行迁移后的模型之前需要把文件中的“please input your shell script here”语句替换成执行模型原来的训练shell脚本的命令。执行run_distributed_npu.sh文件后会生成指定NPU的log日志。

export MASTER_ADDR=127.0.0.1
export MASTER_PORT=29688
export HCCL_WHITELIST_DISABLE=1   

NPUS=($(seq 0 7))
export RANK_SIZE=${#NPUS[@]}
rank=0
for i in ${NPUS[@]}
do
    export DEVICE_ID=${i}
    export RANK_ID=${rank}
    echo run process ${rank}
    please input your shell script here > output_npu_${i}.log 2>&1 &
    let rank++
done

表1 参数说明
参数	说明
MASTER_ADDR	指定训练服务器的ip
MASTER_PORT	指定训练服务器的端口
HCCL_WHITELIST_DISABLE	hccl后端环境
NPUS	指定在特定NPU上运行
RANK_SIZE	指定调用卡的数量
DEVICE_ID	指定调用的device_id
RANK_ID	指定调用卡的逻辑ID

若用户训练脚本中包含昇腾NPU平台不支持的torch.nn.DataParallel接口，需要手动修改成torch.nn.parallel.DistributedDataParallel接口执行多卡训练，参考迁移单卡脚本为多卡脚本进行修改。
若用户训练脚本中包含昇腾NPU平台不支持的torch.cuda.default_generators接口，需要手动修改为torch_npu.npu.default_generators接口。
若用户训练脚本中包含昇腾NPU平台不支持的amp_C模块，需要用户手动删除后再进行训练。
若用户训练脚本中包含torch.cuda.get_device_capability接口，迁移后在昇腾AI处理器上运行时，会返回“None”值，如遇报错，需要用户将“None”值手动修改为固定值。torch.cuda.get_device_properties接口迁移后在昇腾AI处理器上运行时，返回值不包含minor和major属性，建议用户注释掉调用minor和major属性的代码。
如果启用了ModelArts参数，迁移后的脚本可在ModelArts平台上进行训练作业，ModelArts的具体使用方法可参考华为云ModelArts指导手册《AI开发平台ModelArts》，其他平台的ModelArts使用方法略有差异，但核心步骤和华为云ModelArts的一致。
1. 在ModelArts执行训练任务前，需要修改Output Path输出目录下的路径映射配置文件ascend_modelarts_function/path_mapping_config.py：
```
PATH_MAPPING_CONFIG = {
    'input': {
        # Add path mapping here for downloading data before training
        # format: <local path>: <obs/s3 path>
        # For example: '/data/dataset/imagenet': 'obs://dataset/imagenet',
        
    },
    'output': {
        # Add path mapping here for uploading output after training
        # format: <local path>: <obs/s3 path>
        # For example: './checkpoints': 'obs://outputs/',
        
    }
}
```
  'input'中对应训练前需要下载的数据，映射格式为：本地运行时的数据路径:对应云端对象存储的路径。
  
  'output'中对应训练完成后需要上传的数据，映射格式为：训练生成的数据文件路径:生成文件在对象存储上的对应路径。
2. 针对单机多卡场景，ModelArts默认创建8个进程来执行分布式训练，与单卡转多卡功能提供的多卡运行方式类似，具体可参考run_distributed_npu.sh文件，因此ModelArts暂不支持通过torch.multiprocessing.spawn接口创建的多卡进程，仅支持通过命令行循环创建8个进程的方式进行分布式训练。在分布式训练运行前，需要在ModelArts训练作业的环境变量配置界面设置MASTER_ADDR为127.0.0.1、MASTER_PORT为29688和HCCL_WHITELIST_DISABLE为1。
由于转换后的脚本与原始脚本平台不一致，迁移后的脚本在调试运行过程中可能会由于算子差异等原因而抛出异常，导致进程终止，该类异常需要用户根据异常信息进一步调试解决。
分析迁移后可以参考原始脚本提供的训练流程进行训练。

后续操作