Ascend Operator环境变量说明
Ascend Operator为不同AI框架的分布式训练任务提供相应的环境变量,该环境变量的相关说明请参见表1。
框架名称 |
环境变量名称 |
功能 |
取值 |
说明 |
---|---|---|---|---|
PyTorch |
MASTER_ADDR |
与Master节点通信的IP地址 |
合法的IP地址,格式为字符串,要求为常规IPv4或IPv6格式 |
|
MASTER_PORT |
与Master节点通信的端口 |
支持配置为字符串、数字,取值范围为0~65520 |
Master Pod对应svc中名称为ascendjob-port的值,默认为2222。 |
|
WORLD_SIZE |
任务使用的总NPU数 |
大于0的整数 |
任务使用的总卡数,例如64个NPU任务,则取值为64。 |
|
RANK |
本节点Pod的Node Rank |
大于或等于0的整数 |
Master为0,Worker从1开始逐一增加。 |
|
LOCAL_WORLD_SIZE |
每个节点Pod使用的NPU数 |
大于或等于0的整数 |
例如Pod使用4个NPU,则配置为4。 |
|
LOCAL_RANK |
每个节点Pod使用的NPU的逻辑ID列表 |
字符串 |
根据Pod使用NPU数量进行配置,从0开始。例如,Pod使用4个NPU,则配置为{0,1,2,3}。 |
|
MindSpore |
MS_SERVER_NUM |
指定角色为MS_PSERVER的进程数量 |
0 |
暂不支持PS模式,设置固定值0。 |
MS_WORKER_NUM |
任务使用的总NPU数 |
大于0的整数 |
任务使用的总NPU数,例如64个NPU任务,则取值为64。 |
|
MS_LOCAL_WORKER |
每个节点Pod使用的NPU数 |
大于0的整数 |
例如Pod使用4个NPU,则配置为4。 |
|
MS_SCHED_HOST |
指定Scheduler的IP地址 |
合法的IP地址 |
|
|
MS_SCHED_PORT |
与Scheduler通信的端口 |
1024~65535范围内的端口号。 |
Scheduler Pod对应svc中名称为ascendjob-port的值,默认取值为2222。 |
|
MS_ROLE |
指定本进程角色 |
|
Worker进程会向Scheduler进程注册从而完成组网。 |
|
MS_NODE_RANK |
本节点Pod的Node Rank |
大于或等于0的整数 |
|
|
TensorFlow |
CM_CHIEF_IP |
与CHIEF通信的IP |
合法的IP地址,格式为字符串,要求为常规IPv4或IPv6格式 |
|
CM_CHIEF_PORT |
与CHIEF通信的端口 |
支持配置为字符串、数字,取值范围0~65520 |
Scheduler Pod对应svc中名称为ascendjob-port的值,默认取值为2222。 |
|
CM_CHIEF_DEVICE |
用于指定CHIEF节点中统计Server端集群信息的Device逻辑ID |
0 |
取值固定取值为0。 |
|
CM_WORKER_SIZE |
任务使用的总NPU数 |
取值范围为0~32768 |
任务使用的总卡数,例如64个NPU任务,则取值为64。 |
|
CM_LOCAL_WORKER |
每个Pod使用的NPU数 |
大于0的整数 |
例如Pod使用4个NPU,则配置为4。 |
|
CM_WORKER_IP |
Pod的podIP |
合法的IP地址,格式为字符串,要求为常规IPv4或IPv6格式 |
当前Pod的podIP。 |
|
CM_RANK |
本节点Pod的Node Rank |
大于或等于0的整数 |
|