下载
中文
注册

产品堆栈

关键特性

系统资源健康监控
通过Ascend Device Plugin、NodeD、ClusterD、NPU Exporter基础组件对接第三方平台,实现AI处理器、服务器节点健康状态全量监控、资源指标实时监测能力,保障集群稳定运行
典型故障自动化处理
通过Ascend FaultDiag组件从训练任务产生的日志中提取关键信息,一键分析发生故障设备和根因,大幅提高训练作业问题的诊断能力
训练任务分钟级恢复
基于Volcano、ClusterD、Ascend Operator或HCCL Controller、NodeD、Ascend Device Plugin、和Elastic Agent等组件提供断点续训能力,实现故障发现、故障处理、任务重调度全流程自动化,训练任务分钟级恢复

开发资源

昇腾开放资源
基于华为昇腾解决方案使能原生创新,获取MindCluster开源组件源码
在线课程
体系化的课程,轻松学MindCluster,用MindCluster
故障案例
提供海量的问题分析思路和解决办法
开发文档
查看MindCluster AI集群系统软件相关文档,了解更多详情