特性叠加
本章节提供DeepSeek模型和Qwen模型的特性叠加说明。
DeepSeek模型
DeepSeek模型支持的特性叠加情况如下所示。
在开启MTP(多token预测)与SP/CP(序列并行/上下文并行)叠加的推理场景下,部分对长上下文信息敏感的数据集(如LiveCodeBench、BFCL)可能观测到精度波动。如果您的特定应用场景对生成精度极为敏感,可评估通过关闭MTP功能来规避此现象。其他数据集(如AIME2024/2025、LongBenchV2、MMMU、MMLU-PRO)的精度表现不受影响。
Qwen模型
Qwen模型支持的特性叠加情况如下所示。
父主题: 特性介绍