资源申请约束

Atlas 训练系列产品的资源申请约束

根据业务模型，对训练任务作如下要求：

训练任务申请的昇腾AI处理器数量不能大于节点昇腾AI处理器总数。
当训练任务申请的昇腾AI处理器数量不大于4个时，需要将所需的昇腾AI处理器调度到同一个HCCS内。
当训练任务申请的昇腾AI处理器数量为8个时，需要将节点的昇腾AI处理器全部分配给该任务。
当训练任务申请的昇腾AI处理器为虚拟设备vNPU时，申请数量只能为1。
遵循Volcano开源部分的其他约束。

场景说明

根据亲和性策略和业务模型梳理出的场景如表1所示。

表1 Atlas 训练系列产品亲和性策略场景
任务申请昇腾AI处理器数	A	B	C	D
1	1~[0,1,2,3,4]	3~[0,2,3,4]	2~[0,2,4]	4~[0,4]
2	2~[0,1,2,3,4]	4~[0,1,3,4]	3~[0,1]	-
4	4~[0,1,2,3,4]	-	-	-
8	8	-	-	-

A~D列4个分组，表示选择处理器，节点上满足昇腾AI处理器选取的四种HCCS场景。在选择昇腾AI处理器时，这四种场景的优先级逐次递减，即当A场景不满足调度要求时，才会选择B，C，D。
当组内满足HCCS亲和性时，节点的昇腾AI处理器剩余情况。‘~’左边为满足要求的HCCS的昇腾AI处理器剩余情况，右边为另一个HCCS的昇腾AI处理器剩余情况。如对于申请1个昇腾AI处理器的A组情况；另一个HCCS可能为0、1、2、3、4等五种昇腾AI处理器剩余情况。
任务申请昇腾AI处理器数大于或等于8时，均放在A组，需要全部占用。

父主题： Atlas 训练系列产品