昇腾社区首页
中文
注册

迁移完成后

  • 如果启用了“-sim”“--similar”参数,在执行迁移后的模型文件前请先将输出的工程路径加入环境变量PYTHONPATH中。
  • 如果需要用到ascend_function下的similar_api.py文件中的get_device_properties(device)接口,请用户根据实际需要手动编辑StubDevicePropertise(object)中的各项参数值。
  • 如果启用了distributed参数,迁移后会生成如下run_distributed_npu.sh文件:
    export MASTER_ADDR=127.0.0.1
    export MASTER_PORT=63350
    export HCCL_WHITELIST_DISABLE=1   
    
    NPUS=($(seq 0 7))
    export RANK_SIZE=${#NPUS[@]}
    rank=0
    for i in ${NPUS[@]}
    do
        export DEVICE_ID=${i}
        export RANK_ID=${rank}
        echo run process ${rank}
        please input your shell script here > output_npu_${i}.log 2>&1 &
        let rank++
    done
    表1 参数说明

    参数

    说明

    MASTER_ADDR

    指定训练服务器的ip。

    MASTER_PORT

    指定训练服务器的端口。

    HCCL_WHITELIST_DISABLE

    hccl后端环境。

    NPUS

    指定在特定NPU上运行。

    RANK_SIZE

    昇腾AI处理器的数量。

    DEVICE_ID

    昇腾AI处理器的物理编号。

    RANK_ID

    指定调用昇腾AI处理器的逻辑ID。

    在执行迁移后的模型之前需要把run_distributed_npu.sh文件中的“please input your shell script here”语句替换成模型原来的训练shell脚本。执行run_distributed_npu.sh文件后会生成指定NPU的log日志。

  • 由于转换后的脚本与原始脚本平台不一致,迁移后的脚本在调试运行过程中可能会由于算子差异等原因而抛出异常,导致进程终止,该类异常需要用户根据异常信息进一步调试解决。
  • 分析迁移后可以参考MindStudio 用户指南模型训练章节进行训练。