rank_ids
|
输入
|
list类型。
组成该group的world_rank_id列表。
在不同单板类型上,有不同的限制。
针对 Atlas 训练系列产品: - 对于Server单机场景,rank_ids需满足如下条件:
rank数量必须为1/2/4/8,0-3卡与4-7卡各为一个组网,rank数量为2/4时要求选取的昇腾AI处理器同属一个cluster。
- 对于Server集群场景,rank_ids满足如下条件:
- 各Server要选取相同数量的rank(且数量要求为1/2/4/8)。
- 各Server选取rank数量为2/4时要求选取的昇腾AI处理器同属一个cluster(即rank id按8取模余数都小于4或都大于等于4)。
举例:
假设对三台Server创建group,三台Server的rank id分别为:
{0,1,2,3,4,5,6,7}
{8,9,10,11,12,13,14,15}
{16,17,18,19,20,21,22,23}
则满足要求的rank_ids列表可以是:
rank_ids=[1,9,17]
rank_ids=[1,2,9,10,17,18]
rank_ids=[4,5,6,7,12,13,14,15,20,21,22,23]
针对 Atlas 300I Duo 推理卡: - 对于Server单机场景,rank_ids无限制条件。
- 对于Server集群场景,rank_ids需满足如下条件:
建议各Server要选取相同数量的rank(数量大小无要求),且各Server选取的rank对应位置要相等(即rank id按8取模相等)。若各Server选取的rank数量不同,会造成性能裂化。
举例:
假设对三台Server创建group,三台Server的rank id分别为:
{0,1,2,3,4,5,6,7}
{8,9,10,11,12,13,14,15}
{16,17,18,19,20,21,22,23}
则满足要求的rank_ids列表可以是:
rank_ids=[1,9,17]
rank_ids=[1,2,9,10,17,18]
rank_ids=[4,5,6,7,12,13,14,15,20,21,22,23]
针对 Atlas A2 训练系列产品: - 对于Server单机场景,rank_ids无限制条件。
- 对于Server集群场景,rank_ids需满足如下条件:
建议各Server要选取相同数量的rank(数量大小无要求),且各Server选取的rank对应位置要相等(即rank id按8取模相等)。若各Server选取的rank数量不同,会造成性能裂化。
举例:
假设对三台Server创建group,三台Server的rank id分别为:
{0,1,2,3,4,5,6,7}
{8,9,10,11,12,13,14,15}
{16,17,18,19,20,21,22,23}
则满足要求的rank_ids列表可以是:
rank_ids=[1,9,17]
rank_ids=[1,2,9,10,17,18]
rank_ids=[4,5,6,7,12,13,14,15,20,21,22,23]
补充说明:
建议rank_ids按照Device物理连接顺序进行排序,即将物理连接上较近的device编排在一起。例如,若device_ip按照物理连接从小到大设置,则rank_ids也建议按照从小到大的顺序设置。
|