昇腾社区首页
中文
注册

新增特性

特性名称

特性描述

MindIO ACP
  • MindIO CheckPoint保存支持两级异步,加速CheckPoint保存时间,减少对训练的影响。
  • MindIO CheckPoint加载支持并发加载,加速CheckPoint load性能。
  • MindIO支持preload功能,在续训时候提前加载CheckPoint文件到内存,加速load加载速度。
  • MindIO支持使用DPC(Distributed Parallel Client)文件访问存储,加速CheckPoint加载。需要检查是否满足如下条件:
    • 是否使用DPC文件系统访问存储。
    • 是否成功安装NDS 1.0软件包(/opt/oceanstor/dataturbo/sdk/lib/libdpc_nds.so)。
    • 训练进程(如果在容器内)能否访问此so。

    如果以上条件全部满足,则自动启用NDS 1.0直通读功能,加速加载CheckPoint。

  • MindIO支持将MindIO ACP格式的CheckPoint文件转换为Torch原生保存的格式。
MindIO TFT
  • MindIO支持针对L2buffer访问HBM触发UCE故障但业务面无感知(没有导致AIC报错)场景验证能触发Step重计算。支持MindSpore场景。
  • MindCluster/MindIO配合MindSpore针对HBM UCE故障支持step级重执行,支持静态图O0/O1模式。支持HBM故障触发AIC ERR的场景。
  • MindCluster/MindIO配合MindSpore针对进程/节点级故障,支持进程重调度快速恢复场景。
  • 针对MindSpeed-LLM场景需要调整为使用reinit_process_group接口,删除掉之前的适配修改。支持PyTorch场景。
  • 支持手动触发临终遗言保存,通过保存临终CheckPoint避免训练回滚时间。
  • MindIO支持副本数不足场景,从step级重执行/进程重调度降为从周期CheckPoint在线恢复场景。
MindCluster ToolBox
  • 适配Atlas 200 A2 BOX、Atlas 200T A3 Box8 异构子框、Atlas 800T A3、Atlas 800I A3新硬件。
  • 支持整机算力测试、A3产品单节点超节点P2P带宽以卡粒度测试、NIC测试、A3产品指定单device的D2H/H2D、Atlas 300I DUO卡功耗压测新增aicpu、ddr、dvpp器件压测、aicpu精度压测、DDR压测。
  • 新增MCU版本查询、Atlas A3计算节点总线交换板(L1)芯片健康检查。
MindCluster Ascend FaultDiag
  • 支持断点续训场景的自动化分析。
  • 建链/notify超时传播关系优化。
  • 新增AI Core error code解析。

MindCluster Ascend Deployer

  • Atlas A3系列硬件OS适配:velinux 1.3、bclinux 21.10U4、Ubuntu22.04CTyunOS 22.06BCLinux21.1OpenEuler 22.03 SP4、MTOS 22.03。
  • Atlas A2系列硬件OS适配:Euler2.12、Ubuntu22.04.4、openEuler 22.03 LTS SP4。
  • 新增升级功能。
  • 新增MindIE容器化部署。
  • 新增支持带内安装升级MCU
  • excel转inventory_file功能支持MindIE、DL参数配置。
MindCluster基础组件
  • ClusterD新增故障推送统一入口。
  • 新增统计分析中心,支持MTBF、MTTR可视化。
  • 提供主动保存临终CKPT的能力。
  • 断点续训在MindSpore场景支持使用进程级恢复功能。
  • 支持通过pingmesh检测超节点内网络故障。