CANN 9.0.0-beta.1
版本下载地址
版本配套
新增特性
算子库
ops-nn库
- 低bit类算子和融合算子支持更多数据类型:fp8/mxfp8/hifp8/mxfp4等,并支持pertensor/perchannel/pertoken/pergroup/perblock等不同量化和组合方式:
- 提供matmul、卷积、norm和hash类算子编程的优秀实践:
- 新增<<<>>>的算子开发样例()。
- 支持编译生成静态库,发布的nn独立组件包携带静态库()。
ops-transformer库
ops-math库
通信库
- 集合通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品 支持alltoallv算子aicpu展开模式通信task缓存功能()。
- 集合通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品 支持单机多容器部署。
- 集合通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品 支持通信域粒度的超平面QoS配置()。
- 集合通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品 支持aicpu&host 自定义算子场景的profiling信息上报能力,提升自定义通信算子的维测能力( )。
- 集合通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品 AICPU自定义算子场景支持host和aicpu间的kernel同步()。
- 单边通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品 超节点内HCCS场景下支持D2rH直传能力(本端device内存与远端host内存通信能力)()。
图引擎
- ES构图提供多种场景的sample ( 、) 。
- ES构图 Readable Dump支持子图的友好展示。
- 自定义pass改图能力增强,新增原图优化之后改图的能力。
- 图模式多流场景nopadding连续内存支持内存复用。
算子编程
运行时
提供包版本号查询接口,根据包名查询返回数值版本号和字符串版本号,接口如下:
支持查询指定流(Stream)的优先级,接口如下:
支持查询创建Stream时设置的flag标志,接口如下:
支持获取Device的唯一标识UUID(Universally Unique Identifier),接口如下:
支持获取待查询地址所属内存块的起始地址以及内存块大小,接口如下:
支持设置和查询强一致性计算的参数,相关接口如下:
开发与维测工具
性能调优工具
AMCT模型压缩工具
删除和废弃特性
不涉及。
已知问题
无。
已修复问题
- 集合通信:优化快恢时的状态迁移及超时机制,解决快恢失败的问题。
- 集合通信:修复了大规模集群的通信域初始化失败问题(在rootinfo集群信息收集阶段)。