使用须知
MindX DL的集群调度组件主要用在数据中心,提供训练、推理的任务调度和NPU设备发现等基础功能,不包含上层的用户界面以及用户业务逻辑,需要被集成者进行二次开发后再使用。
推荐满足以下场景时,使用
集群调度组件
。
数据中心进行训练和推理。
设备中包含华为NPU的设备。
基于容器化技术部署。
Kubernetes作为任务调度的基础平台。
平台支持训练任务的Workload Resources类型:
Volcano Job(推荐使用):适用于批处理任务,任务有完成状态。
Deployment:适用于后台常驻任务,任务没有完成状态,在一直需要训练的任务、资源或者调试训练任务,或者提供推理服务接口的时候选用。
Deployment的使用约束:不支持Deployment的更新操作,如果需要更新,请先删除再创建。
安全声明:华为确保
集群调度组件
的软件安全,但是本使用指导中涉及的代码样例、模型使用示例、容器镜像等,在码云或者昇腾社区公开发布,仅用于用户参考,如果用户用于商业用途时,需用户自行确保资源的使用安全风险(如漏洞问题)。
模型训练任务说明
根据服务器类型,对训练任务的约束如下:
Atlas 800 训练服务器
训练任务的NPU申请数目为1、2、4、8或8的倍数。当申请NPU数目为2、4时,根据亲和性约束分配的芯片只能在同一台服务器同一个环内(0~3号芯片为一个环,4~7号芯片为一个环)。列如申请了2个NPU进行训练,则分配2个的NPU要么都在同一台服务器的0~3号上,或者都在4~7号上。不能出现一个在0~3号上,另一个在4~7号上。当使用集群调度组件中的Volcano调度任务时此约束已满足。
当训练任务申请的
昇腾910 AI处理器
总数小于或等于8时,只能申请一个Pod。大于8则每个Pod为8个
昇腾910 AI处理器
。
Atlas 800 训练服务器
(NPU半配)
训练任务的NPU申请数目为1、2、4或4的倍数。当申请NPU数目为1、2、4时,只支持单机训练,且芯片都在同一个环内。当使用集群调度组件中的Volcano调度任务时此约束已满足。
当训练任务申请的
昇腾910 AI处理器
总数小于或等于4时,只能申请一个Pod。大于4则每个Pod为4个
昇腾910 AI处理器
。
服务器(插Atlas 300T 训练卡)
训练任务的NPU申请数目为1、2或2的倍数。当申请NPU数目为1、2时,只支持单机训练。当使用集群调度组件中的Volcano调度任务时此约束已满足。
当训练任务申请的
昇腾910 AI处理器
总数小于或等于2时,只能申请一个Pod。大于2则每个Pod为2个
昇腾910 AI处理器
。