昇腾社区首页
中文
注册

新增特性

特性名称

特性描述

MindIO ACP

MindIO Server端支持免部署自动启动。用户获取MindIO的wheel包,使用pip安装后,通过Python进程导入MindIO后可以直接使用MindIO ACP功能。

MindIO TFT

  • 支持MindIO TTP日志不打屏,改为本地存储;支持可配置是否打屏。
  • 断点续训进程级恢复支持单进程重启不更换节点。
  • 空中加油支持在HCCL AllReduce异常场景进程级在线恢复Step重计算。

MindCluster ToolBox

  • 片上内存压测新增地址跳跃压测算法;
  • 新增Atlas A3 训练系列产品硬件CPU HCCS眼图诊断;
  • 新增mpirun命令启动超节点P2P带宽测试

MindCluster Ascend FaultDiag

  • 支持LCN、BMC日志清洗分析;
  • 支持推理模型/实例级故障诊断;
  • 新增首节点信息清洗、故障事件清洗、首节点分析、故障事件分析的SDK接口;
  • 新增socket并行建链、卡死/进程异常退出诊断;

MindCluster Ascend Deployer

  • 新增Containerd安装集群调度组件
  • 新增容器化部署NPU驱动

MindCluster基础组件

  • 支持训练任务借轨通信任务暂停与回切
  • 支持存储DPC客户端异常故障监测
  • 支持Atlas 800I A3 超节点服务器大集群推理任务部署;
  • ClusterD提供故障查询和任务信息查询gRPC接口;
  • 支持大集群推理任务弹性扩缩容;
  • 支持故障快速上报;
  • 断点续训进程级重调度支持单进程恢复;
  • Atlas A3系列硬件支持主机故障检测上报;
  • NPU Exporter支持片上内存温度信息统计;
  • Atlas A3系列硬件支持超节点非亲和性调度;