功能描述
针对Atlas A3 训练系列产品/Atlas A3 推理系列产品的超节点模式组网,若不使用ranktable文件配置集群资源信息,可通过此环境变量指定当前节点运行进程所属的超节点ID,实现超节点组网的划分。
该环境变量取值为string类型,长度需要小于128个字符,默认值为空字符串。
若不配置此环境变量,会获取环境中“Super Pod ID”的值作为超节点ID,“Super Pod ID”的取值可通过“npu-smi info -t spod-info -i id -c chip_id”命令查看。
配置示例
export HCCL_LOGIC_SUPERPOD_ID=super_pod_id_1
使用约束
- 此环境变量仅适用于超节点模式组网下未使用ranktable文件配置集群信息的场景,若使用了ranktable文件,则优先使用ranktable文件中的配置。
- 归属于同一超节点的rank id需要按照Device物理连接顺序连续排布,不支持交叉配置。
例如一个AI Server中有4个rank,按物理连接顺序分别为rank0、rank1、rank2、rank3,假设将这四个rank划分为两个超节点,分别标识为“super_pod_0”与“super_pod_1”:
- 正确配置示例:将rank0、rank1归属为“super_pod_0”,将rank2、rank3归属为“super_pod_1”。
- 错误配置示例:将rank0、rank2归属为“super_pod_0”,将rank1、rank3归属为“super_pod_1”。
支持的型号
Atlas A3 训练系列产品/Atlas A3 推理系列产品