实现原理
根据推理任务类型的不同,特性的原理图略有差异。
vcjob任务
vcjob任务原理图如
图1所示。
图1 vcjob任务调度原理图
各步骤说明如下:
- 集群调度组件定期上报节点和芯片信息;kubelet上报节点芯片数量到node(节点对象)中。
- Ascend Device Plugin定期上报AI Core数量到Node中。
- NodeD定期上报节点健康状态和节点硬件故障信息到node-info-cm中。
- ClusterD读取device-info-cm和node-info-cm中信息后,将信息分别写入cluster-info-device-cm和cluster-info-node-cm中。
- 用户通过kubectl或者其他深度学习平台下发vcjob任务。
- volcano-controller为任务创建相应PodGroup。关于PodGroup的详细说明,可以参考开源Volcano官方文档。
- 当集群资源满足任务要求时,volcano-controller创建任务Pod。
- volcano-scheduler根据节点和芯片拓扑信息为任务选择合适节点,并在Pod的annotation上写入动态虚拟化的模板信息。
- kubelet创建容器时,调用Ascend Device Plugin挂载芯片,Ascend Device Plugin根据模板信息动态虚拟化NPU。Ascend Docker Runtime协助挂载相应资源。
deploy任务
deploy任务原理图如
图2所示。
图2 deploy任务调度原理图
各步骤说明如下:
- 集群调度组件定期上报节点和芯片信息。
- Ascend Device Plugin定期上报AI Core数量到Node中。
- NodeD定期上报节点健康状态和节点硬件故障信息到node-info-cm中。
- ClusterD读取device-info-cm和node-info-cm中信息后,将信息分别写入cluster-info-device-cm和cluster-info-node-cm中。
- 用户通过kubectl或者其他深度学习平台下发deploy任务。
- kube-controller为任务创建相应Pod。
- volcano-controller创建任务PodGroup。关于PodGroup的详细说明,可以参考开源Volcano官方文档。
- volcano-scheduler根据节点和芯片拓扑信息为任务选择合适节点,并在Pod的annotation上写入动态虚拟化的模板信息。
- kubelet创建容器时,调用Ascend Device Plugin挂载芯片,Ascend Device Plugin根据Pod的annotation模板信息动态虚拟化NPU。Ascend Docker Runtime协助挂载相应资源。