使用说明
- 同一个交换机,不能同时被多个跨交换机的任务调用。
- 本章节所指交换机默认为Leaf交换机。
普通任务交换机亲和性
- 普通任务副本数小于M时,M为一台Leaf交换机下的节点个数,优先选择满足任务副本数要求,且剩余可用节点少的交换机下的节点;其次选择未被使用的交换机下的节点;再次选择跨交换机时不会产生Spine交换机下行流量拥塞的节点;最后随机调度。
- 普通任务副本数大于或等于M时,M为一台Leaf交换机下的节点个数,优先选择满足任务副本数要求,且剩余可用节点少的交换机下的节点;其次选择跨交换机时不会产生Spine交换机下行流量拥塞的节点;最后随机调度。
大模型任务交换机亲和性
- 大模型任务副本数小于4时,优先选择满足任务副本数要求,且剩余可用节点少的交换机下的节点;其次选择未被使用的交换机下的节点。
- 大模型任务副本数大于或等于4且小于M时,M为一台Leaf交换机下的节点个数,优先选择满足任务副本数要求,且剩余可用节点少的交换机下的节点;其次选择未被使用的交换机下的节点;最后选择跨交换机时不会产生Spine交换机下行流量拥塞的节点。
- 大模型任务副本数大于或等于M时,M为一台Leaf交换机下的节点个数,优先选择满足任务副本数要求,且剩余可用节点少的交换机下的节点;其次选择跨交换机时不会产生Spine交换机下行流量拥塞的节点。
填充任务交换机亲和性
填充任务优先选择满足任务副本数要求,且剩余可用节点少的交换机下的节点;其次选择未被使用的交换机下的节点。
故障重调度
当任务所在节点或昇腾AI处理器出现故障时,任务会发生故障重调度。重调度前使用正常节点的Pod将会再次调度到原节点继续训练,故障节点上的Pod重新选择节点。