数据并行将推理请求划分为多个批次,并将每个批次分配给不同的设备进行并行处理,每张计算卡都并行处理不同批次的数据,然后将结果合并。
开启数据并行特性,需要配置的补充参数如表1所示。
配置项 |
取值类型 |
取值范围 |
配置说明 |
---|---|---|---|
tp |
int32_t |
整网张量并行数。 选填,默认值为设置的worldSize参数值。 |
|
dp |
int32_t |
Attention模块中的数据并行数。 选填,默认值:-1,表示不执行数据并行。 |
|
moe_tp |
int32_t |
稀疏模型MoE模块中的张量并行数。 选填,默认值为设置的worldSize值。 若同时配置"tp"参数和"moe_tp"参数,则"moe_tp"参数优先级高于"tp"参数。 |
|
moe_ep |
int32_t |
稀疏模型MoE模块中的专家并行数。 选填,默认值:-1,默认不执行专家并行。 |
不配置以上补充参数时,推理过程中默认使用tp和moe_tp并行方式。
已在环境上安装CANN和MindIE详情请参见《MindIE安装指南》。
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True export ATB_WORKSPACE_MEM_ALLOC_ALG_TYPE=3
vi ${MIES_INSTALL_PATH}/conf/config.json "ModelConfig" : [ { "modelInstanceType" : "Standard", "modelName" : "deepseekv2", "modelWeightPath" : "/home/data/DeepSeek-V2-Chat-W8A8-BF16/", "worldSize" : 8, "cpuMemSize" : 5, "npuMemSize" : 1, "backendType" : "atb", "trustRemoteCode" : false, "dp": 8, "tp": 1, "moe_tp": 8 } ]
以上参数设置表明使用8卡进行推理,Attention模块使用数据并行,MoE模型使用张量并行。