业务接口变更
MindCluster Ascend FaultDiag
- MindCluster Ascend FaultDiag支持首节点分析支持全量超时卡间不一致场景。
- MindCluster Ascend FaultDiag新增故障模式库。
- MindCluster Ascend FaultDiag支持windows使用。
MindCluster Ascend Deployer
- 新增OS系统CuLinux。
- 支持通过excel模板转换为inventory_file。
- 支持部署故障诊断组件下载安装。
- MindCluster Ascend Deployer支持独立命令分发软件包。
- MindCluster Ascend Deployer安装检查完善,将部分资料约束转为安装检查。
MindCluster ToolBox
- ascend-dmi --ci功能合并到ascend-dmi -c查询,后续命令接口将删除。
- ascend-dmi --dg -i aicore -fmt json功能的输出结果层级有所调整。
- ascend-dmi 算力、功耗、带宽、故障诊断相关命令增加高危提示,用于用户业务使用下进行使用确认,可使用-q参数跳过确认交互。
- Ascend-dmi压测&诊断能力增强:AI Core压测优化掉GENERAL_WARN,明确结果为EMERGENCY_WARN,可能原因为芯片故障。AI Core压测新增-sc,支持指定压测次数。片上内存压测新增-qs参数,支持高危地址快速压测。
- ascend-dmi topo功能删除,建议使用npu-smi info -t topo查询。
MindCluster基础组件
新版本Volcano安装部署需和新组件MindCluster ClusterD配套使用,升级和安装当前版本Volcano请部署新组件MindCluster ClusterD。
父主题: 6.0.RC2更新说明