昇腾社区首页
中文
注册

新增特性

组件

描述

目的

Ascend Extension for PyTorch(即torch-npu)

torch_npu_run支持分级tcpstore和建链

分级建链优化,不同节点间仅通过最外层的tcpstore进行建链,加速建链初始化时间。

支持devicemesh

对processgroup进一步的抽象,为后续分布式算法提供基础能力。

原生allgather和reducescatter接口支持不等长输入输出

在不等长场景下,给不等长allgather和reducescatter提供单独接口,提升该场景下的通信效率。

支持硬件延时故障感知和恢复

新增硬件延时故障感知上报,支撑MindIO完成故障恢复流程。

新增支持PyTorch 2.5.1

通用能力,与社区同步发布版本。

支持通过pg_options配置hccl通信域参数

新增支持通信域粒度级别配置groupname、qos、aiv参数。

MindSpeed LLM

新增模型支持

发布DeepSeek-V3、DeepSeek-R1-Distill以及HunyuanLarge系列模型。

后训练算法支持

Qwen2.5全参微调与lora微调支持,支持QLoRA微调训练。

MindSpeed MM

新增模型支持

新增支持SD3.5、CogvideoX1.5、Hunyuan Video、InternVL2.5、InternVL2、Qwen2VL等模型。

Qwen2VL系列模型适配

  • Qwen2VL 72B支持LoRA、DPO
  • Qwen2VL 7B支持视频理解

生成模型并行能力增强

  • OpenSoraPlan1.3模型支持USP、VPP、VAE-CP、Encoder-DP
  • CogVideoX 5B模型支持分层zero、Encoder-DP、VAE-CP

理解模型并行能力增强

Qwen2VL 72B支持非对齐SP、CP。

框架优化

多模态理解任务训练入口统一,多模态生成任务新增数据集断点续训功能。

MindSpeed

兼容Megatron-LM core_r0.8.0

从计算性能、内存资源、通信性能及并行算法等多个维度,全面提升大模型训练的效率与稳定性。

新增支持自适应HCCL Buffer

新增支持非对齐TP、SP、Ulysses CP

Driving SDK

新增assign_score_withk算子

支撑自驾模型高性能训练。

新增scatter_add算子

新增boxes_overlap_bev算子

新增支持ADS典型算子。

新增nms3d_on_sight算子

新增boxes_iou_bev算子

新增diff_iou_rotated_sort_vertices_forward算子

新增Multipath++模型

提升昇腾自动驾驶模型支持度,适配业界主流端到端算法。

新增GameFormer模型

新增FCOS-resnet模型

新增DETR模型

新增StreamPETR模型

openMind

新增微调训练方式支持

新增支持COT数据蒸馏训练、DoRA低参微调、DeepSpeed多机训练以及LLM二次预训练。

新增系列模型支持

新增支持DeepSeek-R1-Distill、LLaMa3、ChatGLM4、InternLM2以及Skywork五个系列模型。

新增融合算子支持

新增支持SwiGLU和RoPE融合算子,提升模型微调训练性能。

新增数据处理特性

新增3个数据处理特性,提升模型微调数据处理易用性。
  • 支持txt、csv、parquet数据集文件格式
  • 支持用户直接传入数据集路径
  • 支持传入评估数据集

新增多轮对话支持后端

新增多轮对话MindFormers后端支持。

新增SDK接口特性

新增5个SDK接口特性,丰富用户交互方式。
  • 新增apply_fused_kernel接口,SDK调用融合算子功能
  • 新增run_train接口,SDK调用训练功能
  • 新增run_chat接口,SDK调用对话功能
  • 新增run_eval接口,SDK调用评估功能
  • 新增run_deploy接口,SDK调用部署功能