昇腾社区首页
中文
注册

交换机亲和性调度1.0

使用说明

  • 同一个交换机,不能同时被多个跨交换机的任务调用。
  • 本章节所指交换机默认为Leaf交换机。

普通任务交换机亲和性

  • 普通任务副本数小于M时,M为一台Leaf交换机下的节点个数,优先选择满足任务副本数要求,且剩余可用节点少的交换机下的节点;其次选择未被使用的交换机下的节点;再次选择跨交换机时不会产生Spine交换机下行流量拥塞的节点;最后随机调度。
  • 普通任务副本数大于或等于M时,M为一台Leaf交换机下的节点个数,优先选择满足任务副本数要求,且剩余可用节点少的交换机下的节点;其次选择跨交换机时不会产生Spine交换机下行流量拥塞的节点;最后随机调度。

大模型任务交换机亲和性

  • 大模型任务副本数小于4时,优先选择满足任务副本数要求,且剩余可用节点少的交换机下的节点;其次选择未被使用的交换机下的节点。
  • 大模型任务副本数大于或等于4且小于M时,M为一台Leaf交换机下的节点个数,优先选择满足任务副本数要求,且剩余可用节点少的交换机下的节点;其次选择未被使用的交换机下的节点;最后选择跨交换机时不会产生Spine交换机下行流量拥塞的节点。
  • 大模型任务副本数大于或等于M时,M为一台Leaf交换机下的节点个数,优先选择满足任务副本数要求,且剩余可用节点少的交换机下的节点;其次选择跨交换机时不会产生Spine交换机下行流量拥塞的节点。

填充任务交换机亲和性

填充任务优先选择满足任务副本数要求,且剩余可用节点少的交换机下的节点;其次选择未被使用的交换机下的节点。

故障重调度

当任务所在节点或昇腾AI处理器出现故障时,任务会发生故障重调度。重调度前使用正常节点的Pod将会再次调度到原节点继续训练,故障节点上的Pod重新选择节点。