NPU类型 |
虚拟化实例模板 |
vNPU类型 |
具体虚拟设备名称(以vNPU ID100、物理卡ID0为例) |
---|---|---|---|
Atlas 训练系列产品(30或32个AI Core) |
vir02 |
Ascend910-2c |
Ascend910-2c-100-0 |
vir04 |
Ascend910-4c |
Ascend910-4c-100-0 |
|
vir08 |
Ascend910-8c |
Ascend910-8c-100-0 |
|
vir16 |
Ascend910-16c |
Ascend910-16c-100-0 |
|
Atlas 推理系列产品(8个AI Core) |
vir01 |
Ascend310P-1c |
Ascend310P-1c-100-0 |
vir02 |
Ascend310P-2c |
Ascend310P-2c-100-0 |
|
vir04 |
Ascend310P-4c |
Ascend310P-4c-100-0 |
|
vir02_1c |
Ascend310P-2c.1cpu |
Ascend310P-2c.1cpu-100-0 |
|
vir04_3c |
Ascend310P-4c.3cpu |
Ascend310P-4c.3cpu-100-0 |
|
vir04_3c_ndvpp |
Ascend310P-4c.3cpu.ndvpp |
Ascend310P-4c.3cpu.ndvpp-100-0 |
|
vir04_4c_dvpp |
Ascend310P-4c.4cpu.dvpp |
Ascend310P-4c.4cpu.dvpp-100-0 |
虚拟化实例涉及到需要修改相关参数的集群调度组件为Volcano和Ascend Device Plugin,请按如下要求修改并使用对应的yaml安装部署。
虚拟化实例启动参数说明如下:
参数 |
类型 |
默认值 |
说明 |
---|---|---|---|
-volcanoType |
bool |
false |
是否使用Volcano进行调度,如使用动态虚拟化,需要设置为true。 |
-presetVirtualDevice |
bool |
true |
静态虚拟化功能开关,目前支持Atlas 训练系列产品、Atlas 推理系列产品,且值只能为true。 如使用动态虚拟化,需要设置为false。目前支持Atlas 推理系列产品的动态虚拟化,且需要同步开启Volcano使用。 |
kubectl apply -f device-plugin-310P-v{version}.yaml
kubectl apply -f device-plugin-910-v{version}.yaml
kubectl apply -f device-plugin-310P-volcano-v{version}.yaml
kubectl apply -f device-plugin-volcano-v{version}.yaml
如果K8s集群使用了多种类型的昇腾处理器,请分别执行对应命令。
在Volcano部署文件“volcano-v{version}.yaml”中,需要配置“presetVirtualDevice”且值只能为“true”。
...
data:
volcano-scheduler.conf: |
actions: "enqueue, allocate, backfill"
tiers:
- plugins:
- name: priority
- name: gang
- name: conformance
- name: volcano-npu-v7.0.RC1_linux-aarch64 # 其中7.0.RC1为MindCluster的版本号,根据不同版本,该处取值不同
- plugins:
- name: drf
- name: predicates
- name: proportion
- name: nodeorder
- name: binpack
configurations:
...
- name: init-params
arguments: {"grace-over-time":"900","presetVirtualDevice":"true"}
...
... resources: requests: huawei.com/Ascend910-Y: 1 # 请求的vNPU数量,最大值为1。 limits: huawei.com/Ascend910-Y: 1 # 数值与请求数量一致。 ...
... resources: requests: huawei.com/Ascend310P-Y: 1 # 请求的vNPU数量,最大值为1。 limits: huawei.com/Ascend310P-Y: 1 # 数值与请求数量一致。 ...