新增特性
组件 |
描述 |
目的 |
---|---|---|
Ascend Extension for PyTorch(即torch-npu) |
torch_npu_run支持分级tcpstore和建链 |
分级建链优化,不同节点间仅通过最外层的tcpstore进行建链,加速建链初始化时间。 |
支持devicemesh |
对processgroup进一步的抽象,为后续分布式算法提供基础能力。 |
|
原生allgather和reducescatter接口支持不等长输入输出 |
在不等长场景下,给不等长allgather和reducescatter提供单独接口,提升该场景下的通信效率。 |
|
支持硬件延时故障感知和恢复 |
新增硬件延时故障感知上报,支撑MindIO完成故障恢复流程。 |
|
新增支持PyTorch 2.5.1 |
通用能力,与社区同步发布版本。 |
|
支持通过pg_options配置hccl通信域参数 |
新增支持通信域粒度级别配置groupname、qos、aiv参数。 |
|
MindSpeed LLM |
新增模型支持 |
发布DeepSeek-V3、DeepSeek-R1-Distill以及HunyuanLarge系列模型。 |
后训练算法支持 |
Qwen2.5全参微调与lora微调支持,支持QLoRA微调训练。 |
|
MindSpeed MM |
新增模型支持 |
新增支持SD3.5、CogvideoX1.5、Hunyuan Video、InternVL2.5、InternVL2、Qwen2VL等模型。 |
Qwen2VL系列模型适配 |
|
|
生成模型并行能力增强 |
|
|
理解模型并行能力增强 |
Qwen2VL 72B支持非对齐SP、CP。 |
|
框架优化 |
多模态理解任务训练入口统一,多模态生成任务新增数据集断点续训功能。 |
|
MindSpeed |
兼容Megatron-LM core_r0.8.0 |
从计算性能、内存资源、通信性能及并行算法等多个维度,全面提升大模型训练的效率与稳定性。 |
新增支持自适应HCCL Buffer |
||
新增支持非对齐TP、SP、Ulysses CP |
||
Driving SDK |
新增assign_score_withk算子 |
支撑自驾模型高性能训练。 |
新增scatter_add算子 |
||
新增boxes_overlap_bev算子 |
新增支持ADS典型算子。 |
|
新增nms3d_on_sight算子 |
||
新增boxes_iou_bev算子 |
||
新增diff_iou_rotated_sort_vertices_forward算子 |
||
新增Multipath++模型 |
提升昇腾自动驾驶模型支持度,适配业界主流端到端算法。 |
|
新增GameFormer模型 |
||
新增FCOS-resnet模型 |
||
新增DETR模型 |
||
新增StreamPETR模型 |
||
openMind |
新增微调训练方式支持 |
新增支持COT数据蒸馏训练、DoRA低参微调、DeepSpeed多机训练以及LLM二次预训练。 |
新增系列模型支持 |
新增支持DeepSeek-R1-Distill、LLaMa3、ChatGLM4、InternLM2以及Skywork五个系列模型。 |
|
新增融合算子支持 |
新增支持SwiGLU和RoPE融合算子,提升模型微调训练性能。 |
|
新增数据处理特性 |
新增3个数据处理特性,提升模型微调数据处理易用性。
|
|
新增多轮对话支持后端 |
新增多轮对话MindFormers后端支持。 |
|
新增SDK接口特性 |
新增5个SDK接口特性,丰富用户交互方式。
|