亲和性调度策略

Atlas 900 A3 SuperPoD 超节点的资源利用规则如表1所示。

表1 Atlas 900 A3 SuperPoD 超节点亲和性策略

优先级

策略名称

策略描述

1

优先占满节点

节点芯片数量越少,优先级越高。

说明:

下发分布式任务时,任务存在未按照优先占满调度原则占满某个节点。说明如下:

  • 现象说明:如在Atlas 900 A3 SuperPoD 超节点中,同时下发2卡、14卡任务,存在2卡和14卡任务未调度到同一个节点。
  • 原因分析:因为Volcano调度完一个任务后,Ascend Device Plugin上报调度后的昇腾AI处理器的拓扑结构到mindx-dl-deviceinfo-${node_name}存在时延,导致Volcano校验该节点昇腾AI处理器数量失败,将任务调度到其他节点上。

2

优先剩余保留节点

当超节点保留节点为2,两个超节点中分别剩余3个节点和2个节点时,优先选择剩余3节点的超节点。

3

优先占满超节点

当超节点保留节点为2,两个超节点中分别剩余4个节点和3个节点时,优先选择剩余3节点的超节点。