昇腾社区首页
中文
注册
开发者
下载

分布式场景亲和性策略

Atlas 训练系列产品分布式亲和性策略

分布式训练任务每个节点申请的昇腾AI处理器个数支持1、2、4、8,并且每个任务需要调度到不同节点。

  • MindCluster 5.0.RC1版本之前,由于底层的限制,分布式训练任务每个节点申请的昇腾AI处理器个数只支持8个。

  • MindCluster 5.0.RC1及其之后版本,分布式训练任务每个节点申请的昇腾AI处理器个数支持1、2、4、8。其中单个节点的亲和性策略请参考单机场景亲和性策略

Atlas 200T A2 Box16 异构子框Atlas 200I A2 Box16 异构子框分布式亲和性策略

  • Atlas 200T A2 Box16 异构子框Atlas 200I A2 Box16 异构子框分布式任务每个节点申请的昇腾AI处理器个数支持1~8、10、12、14和16个。
  • 当训练任务申请的昇腾AI处理器数量不大于8个时,需要选择HCCS互联内的昇腾AI处理器
  • 当训练任务申请的昇腾AI处理器数量为10、12、14时,仅需要将所需的昇腾AI处理器平均分配到两个环。相对的物理地址可以不一致。

Atlas 900 A3 SuperPoD 超节点分布式亲和性策略

  • 若为逻辑超节点亲和任务,即任务YAML中的sp-block字段配置了逻辑超节点大小,则申请的昇腾AI处理器数量只能为16。
  • 若使用非16张卡的分布式调度,将任务YAML中的huawei.com/schedule_policy字段配置为chip2-node16后,其亲和性策略与Atlas 800T A3 超节点服务器相同。当多个任务Pod调度到单个节点上时,不支持Pod间的集合通信。

A200T A3 Box8 超节点服务器Atlas 800I A3 超节点服务器Atlas 800T A3 超节点服务器分布式亲和性策略

任务申请的昇腾AI处理器数量支持2、4、6、8、10、12、14、16。当多个任务Pod调度到单个节点上时,不支持Pod间的集合通信。

推理服务器(插Atlas 300I 推理卡)分布式亲和性策略

  • 推理任务申请的昇腾AI处理器数量不能大于节点的昇腾AI处理器总数。
  • 当推理任务申请的昇腾AI处理器数量小于或等于4个时,需要将推理任务调度到同一张Atlas 300I 推理卡内。

推理服务器(插Atlas 300I Duo 推理卡)分布式亲和性策略

  • 推理任务申请的昇腾AI处理器数量不能大于节点的昇腾AI处理器总数。
  • 当推理任务申请的昇腾AI处理器数量小于或等于2个时,需要将推理任务调度到同一张Atlas 300I Duo 推理卡内。