昇腾社区首页
中文
注册
开发者
下载

部署DeepSeek PD实例时配置

前提条件

  • 已安装完成MindCluster集群调度的ascend-docker-runtime、volcano、ascend-device-plugin、ascend-operator、clusterd、noded组件,且各个组件状态为Running正常。
  • 已完成DeepSeek模型权重文件的准备。
  • 已完成参数面网络配置
  • 已在master节点上使用ascend-deployer安装3.9及以上版本的Python。

配置参数

MindCluster Ascend Deployer工具目前仅支持拉起经典配置的DeepSeek PD实例。

配置参数填写示例如下,参数说明请参见表1表2

[master]
xx.xxx.xx.x1 ansible_ssh_user="root" ansible_ssh_pass="xxxxxxx" set_hostname="master-1"     #请替换为实际待安装设备的IP

[worker]
xx.xxx.xx.x1-xx.xxx.xx.x3 ansible_ssh_user="root" ansible_ssh_pass="xxxxxxx"
xx.xxx.xx.x5-xx.xxx.xx.x9 ansible_ssh_user="root" ansible_ssh_pass="xxxxxxx" 

[all:vars]

# 部署DeepSeek PD时配置
weight_mount_path="" 
model_weight_path="" 
mindie_image_name="" 
mindie_image_file="" 
expert_map_file=""
model_name="ds_r1"
job_id="mindie-service"
p_instances_num=2
d_instances_num=1
single_p_instance_pod_num=2
single_d_instance_pod_num=4
max_seq_len=18000
mindie_host_log_path=""
表1 [master]、[worker]参数说明

参数

是否可选

说明

IP

必选

服务器的IP地址,支持动态输入多个IP地址。参数说明如下:

  • index:服务器在IP段中的序号,Int类型,默认为1,如 1.1.1.1-1.1.1.3 set_hostname="master-{index}",那1.1.1.1对应的set_hostname=master-1。
  • step_len:IP跳位步长,末尾IP若不在步长内也会保留。如设置1.1.1.1-1.1.1.6 step_len=2,则输出1.1.1.1,1.1.1.3,1.1.1.5,1.1.1.6。
  • 在批量输入的配置{}中,支持解析参数,包含数据运算、转型等,解析后输出字符串类型。如1.1.1.1-1.1.1.3 set_hostname="master-{str(index+20)+'x'}",则解析后的主机信息为1.1.1.1 set_hostname="master-21x" ...。
  • IP段输入参数暂仅支持python3。
  • 当为IPv6时,不支持将IP作为动态参数填入。

ansible_ssh_user

必选

SSH登录远程服务器的账号,需要为root账号。

ansible_ssh_pass

可选

SSH登录远程服务器账号的密码。

如果配置了SSH密钥认证方式且root用户可以登录,则无需配置。

ansible_ssh_port

可选

SSH连接的端口。

使用默认值22端口时无需配置。

如果使用了非默认的其他端口,则需要配置。

表2 [all:vars]参数说明

参数

是否可选

说明

weight_mount_path

必选

宿主机挂载目录,将目录挂载至容器。如:/mnt/mindie_data/

model_weight_path

必选

指定容器内权重文件所在目录。如:/mnt/mindie_data/deepseek_diff_level/deepseek_r1_w8a8

mindie_image_name

可选

镜像名称(适配已经装载好MindIE镜像)。

如:mindie:dev-2.0.RC1.B091-800I-A2-py311-ubuntu22.04-aarch64

mindie_image_file

可选

共享存储镜像文件地址(适配未装载MindIE镜像)。

如:/mnt/weight/image/mindie_image*.tar.gz

expert_map_file

可选

专家部署表路径,需要确保部署表所在的路径后续可在容器中被加载。

如:/mnt/weight/16node_gsm8k.json

model_name

可选

模型名称,请求接口时需指定该名称。

job_id

必选

填写Kubernetes中的Namespace。

p_instances_num

必选

P实例个数。

d_instances_num

必选

D实例个数。

single_p_instance_pod_num

必选

单个P实例占用pod个数。

single_d_instance_pod_num

必选

单个D实例占用pod个数。

max_seq_len

必选

最大序列长度,数值要求大于0。

仅支持选择以下其中一种取值:

  • 18000
  • 68000
  • 134000

mindie_host_log_path

可选

MindIE日志存储路径,如果CCAE需要配套使用,请填写非root目录。

  • 若集群中存在MindIE镜像,请填写mindie_image_name;若每个节点中存在MindIE镜像文件,请填写mindie_image_file。两个参数中选一个填写即可,若都填写,则优先使用mindie_image_name;若两个参数都未填写,MindCluster Ascend Deployer将尝试从ascend_deployer/resources/MindIE-image目录下查找镜像文件。
  • 填写mindie_image_name和mindie_image_file参数时,请确保集群环境中都存在对应的MindIE镜像或镜像文件。
  • 使用mindie_image_name时,只需填写master节点,worker节点可不填写。未使用mindie_image_name时,请填写待部署的所有worker节点。