资源申请约束
Atlas 训练系列产品的资源申请约束
根据业务模型,对训练任务作如下要求:
- 训练任务申请的昇腾AI处理器数量不能大于节点昇腾AI处理器总数。
- 当训练任务申请的昇腾AI处理器数量不大于4个时,需要将所需的昇腾AI处理器调度到同一个HCCS内。
- 当训练任务申请的昇腾AI处理器数量为8个时,需要将节点的昇腾AI处理器全部分配给该任务。
- 当训练任务申请的昇腾AI处理器为虚拟设备vNPU时,申请数量只能为1。
- 遵循Volcano开源部分的其他约束。
场景说明
根据亲和性策略和业务模型梳理出的场景如表1所示。
任务申请昇腾AI处理器数 |
A |
B |
C |
D |
---|---|---|---|---|
1 |
1~[0,1,2,3,4] |
3~[0,2,3,4] |
2~[0,2,4] |
4~[0,4] |
2 |
2~[0,1,2,3,4] |
4~[0,1,3,4] |
3~[0,1] |
- |
4 |
4~[0,1,2,3,4] |
- |
- |
- |
8 |
8 |
- |
- |
- |
- A~D列4个分组,表示选择处理器,节点上满足昇腾AI处理器选取的四种HCCS场景。在选择昇腾AI处理器时,这四种场景的优先级逐次递减,即当A场景不满足调度要求时,才会选择B,C,D。
- 当组内满足HCCS亲和性时,节点的昇腾AI处理器剩余情况。‘~’左边为满足要求的HCCS的昇腾AI处理器剩余情况,右边为另一个HCCS的昇腾AI处理器剩余情况。如对于申请1个昇腾AI处理器的A组情况;另一个HCCS可能为0、1、2、3、4等五种昇腾AI处理器剩余情况。
- 任务申请昇腾AI处理器数大于或等于8时,均放在A组,需要全部占用。
父主题: Atlas 训练系列产品