TP(Tensor Parallel,张量并行)是一种模型并行的策略,它通过将张量(如权重矩阵、激活值等)在多个设备(如NPU)之间进行切分 ,从而实现模型的分布式推理。
- Atlas 800I A2 推理服务器和Atlas 800I A3 超节点服务器支持此特性。
- DeepSeek-V3和DeepSeek-R1模型支持“Lmhead矩阵local tp切分”、“O project矩阵local tp切分”、“tp大于1”。
- PD分离且D节点是分布式的场景,支持Lmhead矩阵local tp切分和O project矩阵local tp切分,减少矩阵计算时间,降低推理时延。
- PD分离且D节点是分布式低时延场景,当tp大于1时支持MLA的tp切分,小batch低时延场景能减少decode推理时延。
- “tp”大于1时,不支持和O project矩阵local tp切分同时开启,也不建议和LmHead矩阵local tp同时开启。
开启“Lmhead矩阵local tp切分”,需要配置的参数如所示。
表 1 Lmhead矩阵local tp切分补充参数:ModelConfig中的models参数 [object Object][object Object]
开启“O project矩阵local tp切分”,需要配置的参数如所示。
表 2 O project矩阵local tp切分补充参数:ModelConfig中的models参数 [object Object][object Object]