开发者
资源
[object Object]

TP(Tensor Parallel,张量并行)是一种模型并行的策略,它通过将张量(如权重矩阵、激活值等)在多个设备(如NPU)之间进行切分 ,从而实现模型的分布式推理。

[object Object]
  • Atlas 800I A2 推理服务器和Atlas 800I A3 超节点服务器支持此特性。
  • DeepSeek-V3和DeepSeek-R1模型支持“Lmhead矩阵local tp切分”、“O project矩阵local tp切分”、“tp大于1”。
  • PD分离且D节点是分布式的场景,支持Lmhead矩阵local tp切分和O project矩阵local tp切分,减少矩阵计算时间,降低推理时延。
  • PD分离且D节点是分布式低时延场景,当tp大于1时支持MLA的tp切分,小batch低时延场景能减少decode推理时延。
  • “tp”大于1时,不支持和O project矩阵local tp切分同时开启,也不建议和LmHead矩阵local tp同时开启。
[object Object]

开启“Lmhead矩阵local tp切分”,需要配置的参数如所示。

表 1 Lmhead矩阵local tp切分补充参数:ModelConfig中的models参数 [object Object][object Object]

[object Object]undefined

开启“O project矩阵local tp切分”,需要配置的参数如所示。

表 2 O project矩阵local tp切分补充参数:ModelConfig中的models参数 [object Object][object Object]

[object Object]undefined
[object Object]
  1. 打开Server的config.json文件。

    • whl包安装方式:

      [object Object]
    • run包安装方式:

      [object Object]
  2. 配置服务化参数。在Server的config.json文件按照添加相应参数, 服务化参数说明请参见章节,参数配置示例如下。

    下面以DeepSeek-R1模型为例。下方以开启tp切分,关闭Lmhead矩阵local tp切分和O project矩阵local tp切分为例示意。

    [object Object]
  3. 启动服务。

    • whl包安装方式:

      [object Object]
    • run包安装方式:

      [object Object]