1、CANN与Ascend HDK版本配套关系
2、 CANN组合包版本配套关系
3、 CANN独立升级子包版本配套关系
4、CANN开源子包版本配套关系
- 开源算子支持Ascend950PR芯片
- Ascend950PR芯片支持Parallel Welford和超长轴二分累加算法,提高Norm类算子的数值稳定性与计算精度,该特性主要涉及算子:
- Ascend950PR芯片新增MM融合算子:
[object Object]算子基于Ascend950PR芯片支持mxfp8 weightNz特性,提升网络推理性能()。
- image类算子支持Ascend950PR,覆盖
[object Object]、[object Object]、[object Object]、[object Object]等( )。 - CI对Ascend950PR的编译与 UT 识别能力增强( 、、)。
- 算子的example支持在仿真(simulator)上执行,可在不依赖真实硬件的场景下进行样例编译与执行验证,便于Ascend950PR适配前置联调与回归( )。
- 数学运算、张量变换及随机数生成支持Ascend950PR,覆盖
[object Object]、[object Object]、[object Object]、[object Object]、[object Object]、[object Object]、[object Object]、[object Object]、[object Object]、[object Object]、[object Object]等()。 - aclnnMul/aclnnMuls/aclnnAdd/aclnnAdds/aclnnSum等API支持非连续输入,似的相关接口性能得到提升、内存占用有优化()。
- Sort算子在Ascend950PR上相较于Atlas A3,新增UINT16/UINT32/UINT64类型。Atlas A3支持的数据类型在Ascend950PR性能平均提升1.5+倍( )。
- 离散类张量变换类算子性能优化,覆盖
[object Object]、[object Object]、[object Object]( )。 - 算子的example支持在仿真(simulator)上执行,可在不依赖真实硬件的场景下进行样例编译与执行验证,便于 Ascend950PR 适配前置联调与回归( )。
- 集合通信: 通信算子支持Ascend950PR,覆盖
[object Object]、[object Object]、[object Object]、[object Object]、[object Object]、[object Object]、[object Object]、[object Object]、[object Object]、[object Object]、[object Object]等()。 - 集合通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品 超节点内AICPU场景下 AlltoAll算子支持使用对称内存功能()。
- 集合通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品 AICPU场景下 ReduceScatter&AllReduce算子支持Batch一致性()。
- 集合通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品 超节点内 ReduceScatter&AllReduce&AllGather&AlltoAll算子支持多机间的superkernel()。
- 集合通信: 支持离线编译,提升构建易用性()。
- 单边通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品 支持自动建链模式,无需显式调用connect接口()。
- 单边通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品 支持Fabric Memory全局统一编址模式,支持使用HCCS进行D2rH的KV Cache直传能力,提升传输效率()。
- ES构图支持消费历史原型生成合法的重载cxx接口()。
- 支持算子级控核场景代码优化()。
- 图融合删除模型输出节点时,框架支持识别更新模型输出()。
- 公共子表达式消除优化()。
- 支持通过dump开关使能L0和L1 exception dump()。
- error msg优化整改()。
- 提供端到端Sample:动态分档样例()(),自定义算子入图样例(),基于graph接口的Matmul+Add融合为GEMM自定义pass样例()。
- 编译工程优化()()。
- 支持确定性和强一致性配置:ge.deterministicLevel。
- 支持TensorMove消除。
- 在线场景支持用户使用graph级别的option指定模型输出datatype:ge.outputDatatype。
- 去除执行路径上的单例和锁,提升调度性能。
- Ascend 950PR支持SIMD编程模式,提供跨代兼容能力,可实现Atlas A2系列产品和Atlas A3系列产品算子平滑迁移。
- Ascend 950PR新增基于Reg的编程方式,提供Reg数据搬运、基础算术、规约计算、同步控制等。
- Atlas A2系列产品、Atlas A3系列产品、Ascend 950PR支持,支持数组式内存分配与指针型计算接口,提供原生纯 C 编程体验。
- Ascend 950PR支持SIMD与SIMT混合编程,提供约700个,包含warp、atomic、基本数学计算、类型转换等基础接口。
- Ascend 950PR支持通信高阶API的CCU通信接口,提供基于CCU的;Matmul高阶API新增支持,实现内存占用减半、算力吞吐倍增。
- Ascend 950PR新增及兼容支持样例共计约260个,包含SIMT样例、SIMD样例(框架类、基础API、高阶API、最佳实践等),并按照编程模型和样例类别对,提升样例目录结构的易读性。
- 融合编译与<<<>>>调用方式支持以及。
- 运行时Runtime支持Ascend950PR。
- 易用性增强:1) 支持AclGraph场景stream规格扩充至64k,解决大模型资源不足等问题()。 2) 支持Aclgraph场景Event规格扩充,扩充后的Event规格仅取决于Device内存()。
- 发布Runtime编程指南()。
- 发布Runtime Ascend950配套资料()。
无。
无。
无。
- 新增90+ 资料,Reg矢量计算API是面向RegBase架构开发的API,用户可通过该API直接对芯片中涉及Vector计算的寄存器进行操作,实现更大的灵活性和更好的性能。
- 新增SIMT快速入门、编程模型、编译与运行、调试调优和算子实现介绍。
- 新增SIMD与SIMT混合编程模型、算子实现、性能优化介绍。
- 新增SMIT API。
- 新增兼容性迁移指南(220x架构版本迁移到351x架构版本)。
- 昇腾社区中,Ascend C算子开发新增可视化专区,通过视频呈现Cube和Vector算子的执行过程。
- 《图引擎开发指南》手册大纲调整,原《AutoFuse自动融合用户手册》合并至该手册中。
- 《图引擎开发指南》新增“Session到GeSession的迁移指导”章节。
- 《HCCL集合通信用户指南》的“相关参考>集群信息配置”章节下,新增“rank table配置资源信息(Ascend 950PR/Ascend 950DT)”章节。
- 《HCCL集合通信用户指南》的“通信算子开发”章节下,新增“AIV算子开发”章节。
子包独立升级提供了灵活的按需升级功能。
使用场景举例:某用户已安装了a.b.c版本的组合包Ascend-cann-toolkit和Ascend-cann-ops,由于业务需要,要求将单边通信库能力更新至x.y.z版本,此时,可通过独立升级子包cann-hixl来实现。其中a.b.c和x.y.z请替换为实际版本号。
升级子包前,请确保已安装配套版本的组合包Ascend-cann-toolkit和Ascend-cann-ops。如未安装,请参考《》进行安装。
子包的升级路径应与组合包的安装路径保持一致。所有子包的升级操作相同,以下以升级 cann-hixl_x.y.z_linux-aarch64.run 为例进行说明。
升级场景一:
组合包Ascend-cann-toolkit和Ascend-cann-ops安装在默认路径下(即安装时未使用“--install-path”参数)
[object Object]
升级场景二:
组合包Ascend-cann-toolkit和Ascend-cann-ops安装在指定路径“/home/custom_path”(即安装时指定“--install-path=/home/custom_path”)
[object Object]