昇腾社区首页
中文
注册

分布式场景亲和性策略

Atlas训练系列产品分布式亲和性策略

分布式训练任务每个节点申请的昇腾AI处理器个数支持为1、2、4、8,并且每个任务需要调度到不同节点。

  • MindX DL 5.0.RC1之前版本亲和性调度策略

    MindX DL 5.0.RC1版本之前,由于底层的限制,分布式训练任务每个节点申请的昇腾AI处理器个数只支持为8个。

  • MindX DL 5.0.RC1及其之后版本亲和性调度策略

    MindX DL在5.0.RC1及其之后版本,分布式训练任务每个节点申请的昇腾AI处理器个数支持1、2、4、8。其中单个节点的亲和性策略请参考单机场景亲和性策略

Atlas 200T A2 Box16 异构子框分布式亲和性策略

  • Atlas 200T A2 Box16 异构子框分布式任务每个节点申请的昇腾AI处理器个数支持为1~8、10、12、14和16个。
  • 当训练任务申请的昇腾AI处理器数量不大于8个时,需要选择HCCS互联内的昇腾AI处理器
  • 当训练任务为10、12、14时,仅需要将所需的昇腾AI处理器平均分配到两个环,相对的物理地址可以不一致。