开发者
资源
[object Object]

Data Parallel(DP,数据并行)将推理请求划分为多个批次,并将每个批次分配给不同的设备进行并行处理,每个设备都并行处理不同批次的数据,然后将结果合并。

[object Object]

在显存足够时,均可开启数据并行特性,以提高吞吐。

[object Object]
  • Atlas 800I A2 推理服务器和Atlas 800I A3 超节点服务器支持此特性。
  • 所有模型的Attention模块、MLP模块均支持。
  • 数据并行支持同张量并行在同一模块上叠加使用。
[object Object]

开启数据并行特性,需要配置的补充参数如所示。

表 1 数据并行特性补充参数:ModelDeployConfig中的ModelConfig参数 [object Object][object Object]

[object Object]undefined
[object Object]
[object Object]

已在环境上安装CANN和MindIE详情请参见《MindIE安装指南》。

  1. 设置优化显存分配的环境变量

    [object Object]
  2. 打开Server的config.json文件。

    • whl包安装方式:

      [object Object]
    • run包安装方式:

      [object Object]
  3. 配置服务化参数。在Server的config.json文件按照添加相应参数,服务化参数说明请参见章节,参数配置示例如下。

    [object Object]

    以上参数设置表明使用8卡进行推理,Attention模块使用数据并行,MoE模型使用张量并行。

  4. 启动服务。

    • whl包安装方式:

      [object Object]
    • run包安装方式:

      [object Object]
  5. 发送推理请求。具体请参考《MindIE Motor开发指南》中的“集群管理组件 > 调度器(Coordinator) > RESTful接口API > 用户侧接口 > OpenAI推理接口”章节。