大模型推理-昇腾社区

通信加速

整网时延

100+%

小batch、权重预取双流并行、多算力软硬协同通信

解码优化

整网时延

30~60%

MTP、DraftDecoding解码

量化压缩

吞吐

30%

Int8混合量化、自适应精度保持

最优并行

吞吐

3x

SPDTE混合并行、最优并行搜索

调度优化

吞吐

50%

PD分离、多机推理调度