节点预选

任务说明

根据任务所需昇腾AI处理器数量和节点可用昇腾AI处理器数量,判断节点是否满足任务需求。Atlas 训练系列产品要求任务所需昇腾AI处理器为1、2、4时,只能在一个HCCL环内进行选择。

例如某个任务需要4个昇腾AI处理器,某个节点具有4个昇腾AI处理器,但这4个并未在同一个HCCL环内,而是两环各两个,则不选择该节点分配任务。

具体实现

具体代码实现请参考开源代码中CheckNodeNPUByTask方法。其中通过GetTaskReqNPUNum方法获取到训练任务请求的昇腾AI处理器数量,再通过GetUsableTopFromNode方法获取到节点可用NPU资源。JudgeNodeAndTaskNPU方法实现了判断节点NPU资源是否满足任务需求的功能。