新增特性
新增支持
组件  | 
描述  | 
目的  | 
|---|---|---|
Ascend Extension for PyTorch(即torch-npu)  | 
算子下发性能优化  | 
进一步挖掘提升下发性能的优化。  | 
集合通信支持collectiveCoalesced公共能力  | 
为后续新增通信算法提供基本能力支撑。  | 
|
支持P2P独立建链,和hcclbuffersize独立通信域配置  | 
解决大模型部分场景集合通信卡死,提升集合通信性能和易用性。  | 
|
支持配置同步超时时间  | 
用户可自定义device同步超时时间,模型中使用更加灵活。  | 
|
通用能力,跟随社区图模式能力。  | 
||
MindSpeed LLM  | 
新增模型支持  | 
新增支持DeepSeek系列模型。  | 
MindSpeed MM  | 
新增模型支持  | 
新增支持OpenSoraPlan 1.3、CogvideoX、InternVL、Qwen2-VL、SD3.5等模型。  | 
理解模型新增支持LoRA  | 
理解模型LoRA支持。  | 
|
理解模型支持评估  | 
理解模型评估支持。  | 
|
支持TP/CP/PP/VPP等分布式能力  | 
||
MindSpeed  | 
Gloo存档落盘优化  | 
从计算性能、内存资源、通信性能及并行算法等多个维度,全面提升大模型训练的效率与稳定性。  | 
支持permute/unpermute融合  | 
||
支持梯度累加matmul_add融合  | 
||
支持Grouped_matmul融合  | 
||
支持自定义空层操作  | 
||
支持CP场景的EoD reset训练  | 
||
并行策略自动搜索支持部分场景  | 
||
支持MoE TP拓展EP  | 
||
Driving SDK  | 
新增fused_bias_leakyrelu算子  | 
支撑自驾模型高性能训练  | 
新增addrelu算子  | 
||
新增scatter_mean_grad算子  | 
父主题: 6.0.0更新说明