Data Parallel(DP,数据并行)将推理请求划分为多个批次,并将每个批次分配给不同的设备进行并行处理,每个设备都并行处理不同批次的数据,然后将结果合并。
在显存足够时,均可开启数据并行特性,以提高吞吐。
- Atlas 800I A2 推理服务器和Atlas 800I A3 超节点服务器支持此特性。
- 所有模型的Attention模块、MLP模块均支持。
- 数据并行支持同张量并行在同一模块上叠加使用。
表 1 数据并行特性补充参数:ModelDeployConfig中的ModelConfig参数 [object Object][object Object]
[object Object]
已在环境上安装CANN和MindIE详情请参见《MindIE安装指南》。
设置优化显存分配的环境变量
[object Object]打开Server的config.json文件。
whl包安装方式:
[object Object]run包安装方式:
[object Object]
配置服务化参数。在Server的config.json文件按照添加相应参数,服务化参数说明请参见章节,参数配置示例如下。
[object Object]以上参数设置表明使用8卡进行推理,Attention模块使用数据并行,MoE模型使用张量并行。
启动服务。
whl包安装方式:
[object Object]run包安装方式:
[object Object]
发送推理请求。具体请参考《MindIE Motor开发指南》中的“集群管理组件 > 调度器(Coordinator) > RESTful接口API > 用户侧接口 > OpenAI推理接口”章节。