资源申请约束
Atlas 训练系列产品的资源申请约束
根据业务模型,对训练任务作如下要求:
- 训练任务申请的昇腾AI处理器数量不能大于节点昇腾AI处理器总数。
 - 当训练任务申请的昇腾AI处理器数量不大于4个时,需要将所需的昇腾AI处理器调度到同一个HCCS内。
 - 当训练任务申请的昇腾AI处理器数量为8个时,需要将节点的昇腾AI处理器全部分配给该任务。
 - 当训练任务申请的昇腾AI处理器为虚拟设备vNPU时,申请数量只能为1。
 - 遵循Volcano开源部分的其他约束。
 
场景说明
根据亲和性策略和业务模型梳理出的场景如表1所示。
任务申请昇腾AI处理器数  | 
A  | 
B  | 
C  | 
D  | 
|---|---|---|---|---|
1  | 
1~[0,1,2,3,4]  | 
3~[0,2,3,4]  | 
2~[0,2,4]  | 
4~[0,4]  | 
2  | 
2~[0,1,2,3,4]  | 
4~[0,1,3,4]  | 
3~[0,1]  | 
-  | 
4  | 
4~[0,1,2,3,4]  | 
-  | 
-  | 
-  | 
8  | 
8  | 
-  | 
-  | 
-  | 
- A~D列4个分组,表示选择处理器,节点上满足昇腾AI处理器选取的四种HCCS场景。在选择昇腾AI处理器时,这四种场景的优先级逐次递减,即当A场景不满足调度要求时,才会选择B,C,D。
 - 当组内满足HCCS亲和性时,节点的昇腾AI处理器剩余情况。‘~’左边为满足要求的HCCS的昇腾AI处理器剩余情况,右边为另一个HCCS的昇腾AI处理器剩余情况。如对于申请1个昇腾AI处理器的A组情况;另一个HCCS可能为0、1、2、3、4等五种昇腾AI处理器剩余情况。
 - 8个及以上昇腾AI处理器,均放在A组,需要全部占用。
 
父主题: Atlas 训练系列产品