准备任务yaml
如果用户不使用Ascend Docker Runtime组件,Ascend Device Plugin只会帮助用户挂载“/dev”目录下的设备。其他目录(如“/usr”)用户需要自行修改yaml文件,挂载对应的驱动目录和文件。容器内挂载路径和宿主机路径保持一致。
因为Atlas 200I SoC A1 核心板场景不支持Ascend Docker Runtime,用户也无需修改yaml文件。
操作步骤
- 下载yaml文件。
表1 任务类型与硬件型号对应yaml文件 任务类型
硬件型号
yaml文件路径
获取链接
Volcano调度的Deployment任务
Atlas 200I SoC A1 核心板
infer-deploy-310p-1usoc.yaml
其他类型推理节点
infer-deploy.yaml
Volcano Job任务
Atlas 800I A2 推理服务器
infer-vcjob-910.yaml
Ascend Job任务
推理服务器(插Atlas 300I Duo 推理卡)
pytorch_multinodes_acjob_infer_310p_with_ranktable.yaml
Atlas 800I A2 推理服务器
pytorch_multinodes_acjob_infer_{xxx}b_with_ranktable.yaml
Volcano支持Job类型任务,但是Job类型任务的yaml需要用户自行根据示例yaml修改适配。
- 在整卡调度或者动态vNPU调度的yaml配置基础上,增加如下加粗字段启用重调度功能,以整卡调度的infer-deploy.yaml为例。
apiVersion: apps/v1 kind: Deployment metadata: name: resnetinfer1-1-deploy labels: app: infers spec: replicas: 1 selector: matchLabels: app: infers template: metadata: labels: ... fault-scheduling: grace # 添加该字段 ring-controller.atlas: ascend-310 # 添加该字段 spec: schedulerName: volcano nodeSelector: host-arch: huawei-arm # Select the os arch. If the os arch is arm, change it to huawei-x86. ...表2 fault-scheduling配置项值列表 参数
取值
含义
fault-scheduling
grace
任务使用重调度开关,并在过程中先优雅删除原Pod。
force
配置任务采用强制删除模式,在过程中强制删除原Pod。
ring-controller.atlas
- ascend-310
- ascend-310P
- ascend-{xxx}b
用于校验任务使用的芯片类型。
说明:仅支持Atlas 800I A2 推理服务器使用ascend-{xxx}b。
- 修改所选yaml中的容器启动命令,示例如下加粗部分,如果没有则添加“command”字段。
... containers: - image: ubuntu-infer:v1 ... command: ["/bin/bash", "-c", "bash test_model.sh"] resources: requests: ...
父主题: 通过命令行使用(Volcano)