昇腾社区首页
中文
注册

资源申请约束

Atlas 训练系列产品的资源申请约束

根据业务模型,对训练任务作如下要求:

  • 训练任务申请的昇腾AI处理器数量不能大于节点昇腾AI处理器总数。
  • 当训练任务申请的昇腾AI处理器数量不大于4个时,需要将所需的昇腾AI处理器调度到同一个HCCS内。
  • 当训练任务申请的昇腾AI处理器数量为8个时,需要将节点的昇腾AI处理器全部分配给该任务。
  • 当训练任务申请的昇腾AI处理器为虚拟设备vNPU时,申请数量只能为1。
  • 遵循Volcano开源部分的其他约束。

场景说明

根据亲和性策略和业务模型梳理出的场景如表1所示。

表1 Atlas 训练系列产品亲和性策略场景

任务申请昇腾AI处理器

A

B

C

D

1

1~[0,1,2,3,4]

3~[0,2,3,4]

2~[0,2,4]

4~[0,4]

2

2~[0,1,2,3,4]

4~[0,1,3,4]

3~[0,1]

-

4

4~[0,1,2,3,4]

-

-

-

8

8

-

-

-

  • A~D列4个分组,表示选择处理器,节点上满足昇腾AI处理器选取的四种HCCS场景。在选择昇腾AI处理器时,这四种场景的优先级逐次递减,即当A场景不满足调度要求时,才会选择B,C,D。
  • 当组内满足HCCS亲和性时,节点的昇腾AI处理器剩余情况。‘~’左边为满足要求的HCCS的昇腾AI处理器剩余情况,右边为另一个HCCS的昇腾AI处理器剩余情况。如对于申请1个昇腾AI处理器的A组情况;另一个HCCS可能为0、1、2、3、4等五种昇腾AI处理器剩余情况。
  • 任务申请昇腾AI处理器数大于或等于8时,均放在A组,需要全部占用。