特性说明

基础调度包含如下特性:

本文档演示如何基于某模型部署并执行使用NPU的训练或推理任务。生产环境与示例存在差异,本章节内示例仅做参考,用户需要根据实际生产环境做修改。

任务类型

Ascend Operator提供以下2种方式配置资源信息:

任务状态说明

拉起训练任务后,用户可以通过kubectl get acjob命令查看acjob任务的运行状态,当前运行状态有以下几种。

表1 acjob任务运行状态说明

状态名称

说明

Created

Job已经创建,但其中一个或多个子资源(Pod/Service)尚未就绪。

Running

Job的所有子资源(Pod/Service)已经调度并启动。

Restarting

Job的一个或多个子资源(Pod/Service)运行失败,但是根据重启策略正在重新启动。

Succeeded

Job的所有子资源(Pod/Service)处于成功终止阶段。

Failed

Job的一个或多个子资源(Pod/Service)运行失败。

调度时间说明

Volcano在多任务或者单任务场景下,在Atlas 800T A2 训练服务器设备上acjob任务的调度参考时间说明如下。若要达到以下参考时间,需要确保CPU的频率至少为2.60GHz,API Server时延不超过80毫秒。其中调度时间是指任务下发到Pod状态为Running的时间。

ConfigMap说明