export MASTER_ADDR=127.0.0.1 export MASTER_PORT=63350 export HCCL_WHITELIST_DISABLE=1 NPUS=($(seq 0 7)) export RANK_SIZE=${#NPUS[@]} rank=0 for i in ${NPUS[@]} do export DEVICE_ID=${i} export RANK_ID=${rank} echo run process ${rank} please input your shell script here > output_npu_${i}.log 2>&1 & let rank++ done
参数 |
说明 |
---|---|
MASTER_ADDR |
指定训练服务器的ip。 |
MASTER_PORT |
指定训练服务器的端口。 |
HCCL_WHITELIST_DISABLE |
hccl后端环境。 |
NPUS |
指定在特定NPU上运行。 |
RANK_SIZE |
昇腾AI处理器的数量。 |
DEVICE_ID |
昇腾AI处理器的物理编号。 |
RANK_ID |
指定调用昇腾AI处理器的逻辑ID。 |
在执行迁移后的模型之前需要把run_distributed_npu.sh文件中的“please input your shell script here”语句替换成模型原来的训练shell脚本。执行run_distributed_npu.sh文件后会生成指定NPU的log日志。