昇腾社区首页
中文
注册

新增特性

新增支持Atlas A3 训练系列产品,部分特性或API支持度与Atlas A2 训练系列产品存在差异,具体可参见各手册。

组件

描述

目的

Ascend Extension for PyTorch(即torch-npu)

算子下发性能优化

进一步挖掘提升下发性能的优化。

集合通信支持collectiveCoalesced公共能力

为后续新增通信算法提供基本能力支撑。

支持P2P独立建链,和hcclbuffersize独立通信域配置

解决大模型部分场景集合通信卡死,提升集合通信性能和易用性。

支持配置同步超时时间

用户可自定义device同步超时时间,模型中使用更加灵活。

新增支持图模式部分特性(具体可参见《PyTorch 图模式使用指南(TorchAir)》)

通用能力,跟随社区图模式能力。

MindSpeed LLM

新增模型支持

新增支持DeepSeek系列模型。

MindSpeed MM

新增模型支持

新增支持OpenSoraPlan 1.3、CogvideoX、InternVL、Qwen2-VL、SD3.5等模型。

理解模型新增支持LoRA

理解模型LoRA支持。

理解模型支持评估

理解模型评估支持。

支持TP/CP/PP/VPP等分布式能力

具体内容请参见代码仓readme

MindSpeed

Gloo存档落盘优化

从计算性能、内存资源、通信性能及并行算法等多个维度,全面提升大模型训练的效率与稳定性。

支持permute/unpermute融合

支持梯度累加matmul_add融合

支持Grouped_matmul融合

支持自定义空层操作

支持CP场景的EoD reset训练

并行策略自动搜索支持部分场景

支持MoE TP拓展EP

Driving SDK

新增fused_bias_leakyrelu算子

支撑自驾模型高性能训练

新增addrelu算子

新增scatter_mean_grad算子