逻辑超节点亲和性调度
使用说明
- 逻辑超节点的数量必须小于物理超节点数量。
- 逻辑超节点内的节点必须在物理超节点内。
- 逻辑超节点内的NPU卡的rank id是连续的。
普通任务调度
- 逻辑超节点调度优先保证物理超节点内有预留节点,其次优先使用剩余节点更少的超节点。
- 用户需在任务yaml中指定sp-block字段,用于指定逻辑超节点芯片数量,单机时需要和任务请求的芯片数量一致,分布式时需要是节点芯片数量的整数倍,且任务总芯片数量是其整数倍。
故障任务重调度
- 如果逻辑超节点中的所有节点都没有故障,重调度时需继续使用该逻辑超节点下的节点。
- 若逻辑超节点中的某些节点发生故障不可用,则从所在物理超节点选取节点,其他节点保持不变。
- 若物理超节点中剩余节点已不能满足逻辑超节点,则逻辑超节点上的任务全部调度到其他物理超节点。