昇腾社区首页
中文
注册
开发者
下载

CANN 9.0.0-beta.1

版本下载地址

版本配套

  • HDK:

新增特性

算子库

ops-nn库

  • 低bit类算子和融合算子支持更多数据类型:fp8/mxfp8/hifp8/mxfp4等,并支持pertensor/perchannel/pertoken/pergroup/perblock等不同量化和组合方式:
  • 提供matmul、卷积、norm和hash类算子编程的优秀实践:
  • 新增<<<>>>的算子开发样例()。
  • 支持编译生成静态库,发布的nn独立组件包携带静态库()。

ops-transformer库

  • transformer相关算子在Atlas A3系列产品上能力完善:

  • transformer相关算子在Atlas A2系列产品上能力完善:

ops-math库

  • 算子工程支持kernel并行编译()。
  • 算子工程日志优化()。
  • 算子CI支持算子增量UT与冒烟( )。
  • 算子构建脚本支持导出预编译文件,降低算子问题定位难度()。
  • 支持Docker部署()。

通信库

  • 集合通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品 支持alltoallv算子aicpu展开模式通信task缓存功能()。
  • 集合通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品 支持单机多容器部署。
  • 集合通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品 支持通信域粒度的超平面QoS配置()。
  • 集合通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品 支持aicpu&host 自定义算子场景的profiling信息上报能力,提升自定义通信算子的维测能力( )。
  • 集合通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品 AICPU自定义算子场景支持host和aicpu间的kernel同步()。
  • 单边通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品 超节点内HCCS场景下支持D2rH直传能力(本端device内存与远端host内存通信能力)()。

图引擎

  • ES构图提供多种场景的sample () 。
  • ES构图 Readable Dump支持子图的友好展示。
  • 自定义pass改图能力增强,新增原图优化之后改图的能力。
  • 图模式多流场景nopadding连续内存支持内存复用。

算子编程

  • 迁移高阶API样例仓,并使用
  • 联合毕昇编译器,优化融合编译性能。

运行时

  • 提供包版本号查询接口,根据包名查询返回数值版本号和字符串版本号,接口如下:

  • 支持查询指定流(Stream)的优先级,接口如下:

  • 支持查询创建Stream时设置的flag标志,接口如下:

  • 支持获取Device的唯一标识UUID(Universally Unique Identifier),接口如下:

  • 支持获取待查询地址所属内存块的起始地址以及内存块大小,接口如下:

  • 支持设置和查询强一致性计算的参数,相关接口如下:

开发与维测工具

性能调优工具

  • 多业务进程采集:msprof动态profiler支持一次性配置多个进程pid,支撑客户同时采集多个业务进程数据()。
  • 支持开启对称内存:新增-m 参数,支持开启对称内存()。

AMCT模型压缩工具

  • 支持HIF8/MXFPx等低比特数据格式的量化能力:新增HIF8/FP8/FP4/MXFP8/MXFP4量化数据类型,新增HIF8匹配的OFMR量化算法(

删除和废弃特性

不涉及。

已知问题

无。

已修复问题

  • 集合通信:优化快恢时的状态迁移及超时机制,解决快恢失败的问题。
  • 集合通信:修复了大规模集群的通信域初始化失败问题(在rootinfo集群信息收集阶段)。

漏洞修补列表

版本开源及第三方软件漏洞修复情况详见