新增特性
MindCluster基础组件
- 支持亚健康调度策略配置。
- 支持分布式推理集群亲和性调度。
- Atlas 200T A2 Box16 异构子框支持虚拟化实例。
MindCluster Ascend FaultDiag
- 故障模式库补充,新增MindSpore、Ascend Extension for PyTorch、HostOS、AI服务器、超节点相关故障事件。
- 优化清洗、诊断命令性能。
- 增加故障优先级排序、故障屏蔽机制。
MindCluster Ascend Deployer
- 支持分批部署MindCluster基础组件。
- 安装进度支持服务器级别的状态展示和异常告警。
- 软件下载加固,提示可能影响下载的相关设置、检查环境干扰下载的配置。
- 适配新版本软件安装。
MindCluster ToolBox
- 新增在进行算力测试、带宽测试、算力诊断、带宽诊断、aicore压测和片上内存压测时,检测是否有其他业务进程在占用卡的功能。
- 新增恢复NPU环境的功能。
- 新增支持诊断项分层分级。
- 新增一键式片上内存压测和诊断功能。
- 新增P2P压测功能。
- 新增TDP和EDP功耗压测功能。
- 新增PRBS码流压测功能。
- 新增debug日志记录。
父主题: 6.0.RC3更新说明