新增特性
新增支持
组件 |
描述 |
目的 |
---|---|---|
Ascend Extension for PyTorch(即torch-npu) |
算子下发性能优化 |
进一步挖掘提升下发性能的优化。 |
集合通信支持collectiveCoalesced公共能力 |
为后续新增通信算法提供基本能力支撑。 |
|
支持P2P独立建链,和hcclbuffersize独立通信域配置 |
解决大模型部分场景集合通信卡死,提升集合通信性能和易用性。 |
|
支持配置同步超时时间 |
用户可自定义device同步超时时间,模型中使用更加灵活。 |
|
通用能力,跟随社区图模式能力。 |
||
MindSpeed LLM |
新增模型支持 |
新增支持DeepSeek系列模型。 |
MindSpeed MM |
新增模型支持 |
新增支持OpenSoraPlan 1.3、CogvideoX、InternVL、Qwen2-VL、SD3.5等模型。 |
理解模型新增支持LoRA |
理解模型LoRA支持。 |
|
理解模型支持评估 |
理解模型评估支持。 |
|
支持TP/CP/PP/VPP等分布式能力 |
||
MindSpeed |
Gloo存档落盘优化 |
从计算性能、内存资源、通信性能及并行算法等多个维度,全面提升大模型训练的效率与稳定性。 |
支持permute/unpermute融合 |
||
支持梯度累加matmul_add融合 |
||
支持Grouped_matmul融合 |
||
支持自定义空层操作 |
||
支持CP场景的EoD reset训练 |
||
并行策略自动搜索支持部分场景 |
||
支持MoE TP拓展EP |
||
Driving SDK |
新增fused_bias_leakyrelu算子 |
支撑自驾模型高性能训练 |
新增addrelu算子 |
||
新增scatter_mean_grad算子 |
父主题: 6.0.0更新说明