特性说明

基础调度包含如下特性：

本文档演示如何基于某模型部署并执行使用NPU的训练或推理任务。生产环境与示例存在差异，本章节内示例仅做参考，用户需要根据实际生产环境做修改。

Ascend Operator提供以下2种方式配置资源信息：

通过环境变量配置资源信息：为不同AI框架的分布式训练任务提供相应的环境变量，请参见Ascend Operator环境变量说明。使用此方式的用户仅支持创建Ascend Job（以下简称acjob）对象。
通过文件配置资源信息：训练任务集合通信配置文件（RankTable File，也叫hccl.json）。使用此方式的用户支持创建以下3种类型的对象：Volcano Job（以下简称vcjob）、Ascend Job（以下简称acjob）和Deployment（以下简称deploy）。
- （推荐）Ascend Job：简称acjob，适用于通过环境变量设置资源信息的训练任务。
- Volcano Job：简称vcjob，适用于批处理任务，任务有完成状态。
- Deployment：简称deploy，适用于后台常驻任务，任务没有完成状态。在需要持续训练任务、持续占用资源，调试训练任务，或者提供推理服务接口的时候选用。
  
  不支持Deployment的更新操作，如果需要更新，请先删除再创建。

拉起训练任务后，用户可以通过kubectl get acjob命令查看acjob任务的运行状态，当前运行状态有以下几种。

表1 acjob任务运行状态说明
状态名称	说明
Created	Job已经创建，但其中一个或多个子资源(Pod/Service)尚未就绪。
Running	Job的所有子资源(Pod/Service)已经调度并启动。
Restarting	Job的一个或多个子资源(Pod/Service)运行失败，但是根据重启策略正在重新启动。
Succeeded	Job的所有子资源(Pod/Service)处于成功终止阶段。
Failed	Job的一个或多个子资源(Pod/Service)运行失败。

Volcano在多任务或者单任务场景下，在Atlas 800T A2 训练服务器设备上acjob任务的调度参考时间说明如下。若要达到以下参考时间，需要确保CPU的频率至少为2.60GHz，API Server时延不超过80毫秒。其中调度时间是指任务下发到Pod状态为Running的时间。

多任务调度时间说明。
- 并发创建多个单机单卡任务数量的峰值为100个，即用100个任务YAML同时创建100个单机单卡任务，这100个单机单卡任务的调度时间为107秒。
- 每秒稳定创建单机单卡任务数为5个，连续稳定创建1分钟后，可以创建300个单机单卡任务，这300个单机单卡任务的调度时间为293秒。

单任务调度时间说明如表2所示。

表2 单任务多Pod调度说明
集群节点数	Pod数量	调度时间
100	100	14秒
500	500	57秒
1000	1000	114秒
2000	2000	228秒
3000	3000	269秒
4000	4000	300秒
5000	5000	400秒
注：单任务多Pod场景即用1个任务YAML创建多个Pod，比如1个任务YAML创建100个Pod，这100个Pod分别调度到100个节点上的调度时间为14秒。若想要达到4000或5000节点的优化调度参考时间，需要参见安装Volcano的步骤8进行相应修改。当前vcjob任务的调度规格最大支持1000节点。

每个计算节点的Ascend Device Plugin均会创建记录本节点NPU设备信息的ConfigMap文件，该ConfigMap文件名称为mindx-dl-deviceinfo-<nodename>（以下简称device-info-cm），通过该ConfigMap进行故障信息的上报。该ConfigMap文件字段说明，请参见表1。
每个计算节点的NodeD均会创建记录本节点设备信息的ConfigMap文件，该ConfigMap文件名称为mindx-dl-nodeinfo-<nodename>（以下简称node-info-cm），通过该ConfigMap进行节点故障的信息上报。该ConfigMap文件字段说明，请参见表1。
ClusterD会创建记录本集群设备信息的ConfigMap文件，该ConfigMap文件名称为cluster-info-<device/node/switch>-<[0-5]>（以下简称cluster-info-cm），通过该ConfigMap进行集群中节点及芯片故障信息上报。该ConfigMap文件字段说明，请参见集群资源章节。

父主题： 基础调度特性指南