新增特性
组件 |
描述 |
目的 |
|---|---|---|
Ascend Extension for PyTorch(即torch-npu) |
ACLGraph支持随机数 |
提升ACLGraph的易用性。 |
支持节点内IPC |
进程间可以直接访问设备内存,无需进行显式的数据拷贝。在强化学习这种既有训练又有推理的场景,需要使用以减少对权重的频繁拷贝,并降低设备内存使用。 说明:
该特性需配合HDK 25.3.RC1和CANN 8.3.RC1版本共同使用。 |
|
新增支持PyTorch 2.7.1 |
通用能力,与社区同步发布。 |
|
新增支持PyTorch 2.8.0 |
通用能力,与社区同步发布。 |
|
host内存优化 |
增强host内存复用率。 |
|
支持进程级分核 |
控制算子在进程中使用的vector和cube核数。 |
|
Driving SDK |
新增DexVLA模型适配 |
适配业界主流VLA模型,支持具身智能和自动驾驶场景。 |
新增OpenVLA模型适配 |
||
新增Pi0模型适配 |
||
新增DiffusionPlanner |
适配业界主流Diffusion Policy模型,支持自动驾驶场景。 |
|
新增OpenDWM |
适配业界主流世界模型,支持具身智能和自动驾驶场景。 |
|
FlashOCC、MapTRv2、BevDet4D支持混合精度训练 |
提升昇腾自动驾驶模型支持度,适配业界主流感知算法。 |
|
新增DiffusionDrive 模型 |
适配业界主流Diffusion Policy模型,支持自动驾驶场景。 |
|
新增group_points算子 |
提升MMCV满足度。 |
|
新增radius(类似BallQuery)算子 |
支持QCNet模型。 |
|
MSDA算子性能优化 |
自动驾驶场景关键算子,提升BEVFormer等模型的性能。 |
|
DeformableConv2d正反向算子优化 |
||
SalsaNext、PanoOCC、QCNet、UniAD 模型优化 |
提升昇腾自动驾驶模型支持度,适配业界主流感知算法。 |
|
Deformable DETR、FCOS3D、DETR3D、Sparse4D、BEVFusion、SparseDrive模型优化 |
提升昇腾自动驾驶模型支持度,适配业界主流感知算法,提升重点模型性能。 |
|
SubmSparseConv3d正反向算子支持FP16 |
为支持混合精度训练,SubmSparseConv3dGrad新增支持FP16。 |
|
deformableAggregation算子优化 |
自动驾驶场景关键算子,提升SparseBev、SparseDrive等模型性能。 |