昇腾社区首页
中文
注册

逻辑超节点亲和性调度

使用说明

  • 逻辑超节点的数量必须小于物理超节点数量。
  • 逻辑超节点内的节点必须在物理超节点内。
  • 逻辑超节点内的NPU卡的rank ID是连续的。

普通任务调度

  • 逻辑超节点调度优先保证物理超节点内有预留节点,其次优先使用剩余节点更少的超节点。
  • 用户需在任务YAML中指定sp-block字段,用于指定逻辑超节点芯片数量,单机时需要和任务请求的芯片数量一致,分布式时需要是节点芯片数量的整数倍,且任务总芯片数量是其整数倍。

故障任务重调度

  • 如果逻辑超节点中的所有节点都没有故障,重调度时需继续使用该逻辑超节点下的节点。
  • 若逻辑超节点中的某些节点发生故障不可用,则从所在物理超节点选取节点,其他节点保持不变。
  • 若物理超节点中剩余节点已不能满足逻辑超节点,则逻辑超节点上的任务全部调度到其他物理超节点。

MindIE Service推理任务调度

MindIE Service推理任务中,新增如下亲和性调度策略。如需了解该亲和性调度策略的详细配置说明,请参见配置实例级亲和性调度章节。

  • 用户需在任务YAML中指定sp-block字段,sp-block的值必须和job芯片数量一致,保证整个job调度到一个物理超节点中。
  • 逻辑超节点调度优先保证物理超节点内有预留节点。
  • 同一个推理任务中处于同一物理超节点的节点通信走内部HCCS网络。
  • 用户设置sp-fit为idlest时,虚拟超节点会往更空闲的物理超节点调度。
  • 用户设置PodAffinity时,虚拟超节点会往具有更多亲和性Pod的物理超节点调度。