Tensor Parallel-基础特性-特性介绍-MindIE LLM-大语言模型推理框架-MindIE3.0.0开发文档-昇腾社区

[object Object]

TP（Tensor Parallel，张量并行）是一种模型并行的策略，它通过将张量（如权重矩阵、激活值等）在多个设备（如NPU）之间进行切分，从而实现模型的分布式推理。

[object Object]

Atlas 800I A2 推理服务器和Atlas 800I A3 超节点服务器支持此特性。
DeepSeek-V3和DeepSeek-R1模型支持“Lmhead矩阵local tp切分”、“O project矩阵local tp切分”、“tp大于1”。
PD分离且D节点是分布式的场景，支持Lmhead矩阵local tp切分和O project矩阵local tp切分，减少矩阵计算时间，降低推理时延。
PD分离且D节点是分布式低时延场景，当tp大于1时支持MLA的tp切分，小batch低时延场景能减少decode推理时延。
“tp”大于1时，不支持和O project矩阵local tp切分同时开启，也不建议和LmHead矩阵local tp同时开启。

[object Object]

开启“Lmhead矩阵local tp切分”，需要配置的参数如所示。

表 1 Lmhead矩阵local tp切分补充参数：ModelConfig中的models参数 [object Object][object Object]

[object Object]undefined

开启“O project矩阵local tp切分”，需要配置的参数如所示。

表 2 O project矩阵local tp切分补充参数：ModelConfig中的models参数 [object Object][object Object]

[object Object]undefined

[object Object]

打开Server的config.json文件。
- whl包安装方式：
  
  [object Object]
- run包安装方式：
  
  [object Object]
配置服务化参数。在Server的config.json文件按照和添加相应参数，服务化参数说明请参见章节，参数配置示例如下。

下面以DeepSeek-R1模型为例。下方以开启tp切分，关闭Lmhead矩阵local tp切分和O project矩阵local tp切分为例示意。

[object Object]
启动服务。
- whl包安装方式：
  
  [object Object]
- run包安装方式：
  
  [object Object]