昇腾社区首页
中文
注册
开发者
下载

特性叠加

本章节提供DeepSeek模型和Qwen模型的特性叠加说明。

DeepSeek模型

DeepSeek模型支持的特性叠加情况如下所示。

在开启MTP(多token预测)与SP/CP(序列并行/上下文并行)叠加的推理场景下,部分对长上下文信息敏感的数据集(如LiveCodeBench、BFCL)可能观测到精度波动。如果您的特定应用场景对生成精度极为敏感,可评估通过关闭MTP功能来规避此现象。其他数据集(如AIME2024/2025、LongBenchV2、MMMU、MMLU-PRO)的精度表现不受影响。

Qwen模型

Qwen模型支持的特性叠加情况如下所示。