昇腾社区首页
中文
注册

MindCluster

MindCluster是支持NPU(昇腾AI处理器构建的深度学习系统组件,专为训练和推理任务提供集群级解决方案。赋能合作伙伴基于MindCluster快速开发深度学习平台,减少底层资源调度等相关软件开发的工作量。

  • MindCluster是什么

    快速了解MindCluster的关键功能特性及全部组件。

  • 版本说明

    整体介绍了MindCluster产品软件版本信息,包括配套的软硬件说明、兼容性说明等信息。

安装部署

性能测试

  • Ascend DMI工具

    提供Atlas硬件产品的兼容性检查、带宽测试、算力测试、功耗测试、诊断压测等功能。

  • 日志收集工具

    收集运行环境信息、昇腾NPU日志等信息。

  • Ascend Cert签名校验工具

    提供软件包数字签名校验和更新CRL证书吊销列表等功能,保证软件包的安全性和CRL文件的有效性。

故障诊断

集群调度

快速入门

组件安装

  • 使用工具安装

    指导用户使用Ascend Deployer工具安装集群调度组件。

  • 手动安装

    包含MindCluster集群调度各组件的安装、启动和验证方法。

断点续训

  • 故障检测

    提供节点、芯片、参数面网络等故障的检测功能。

  • 故障处理

    断点续训通过多种故障处理功能来恢复训练业务。

  • 脚本适配

    指导用户step by step地完成断点续训的适配步骤。

基础调度

容器化支持

资源监测

  • 通过Prometheus使用

    指导用户安装Prometheus,并通过Prometheus查看资源监测的数据信息。

  • 通过Telegraf使用

    指导用户安装Telegraf,并通过Telegraf查看资源监测的数据信息。

虚拟化实例

亲和性调度

CheckPoint保存与加载优化

故障恢复加速

参考

  • 昇腾产品形态说明

    提供昇腾产品系列、产品型号等相关信息说明。

  • 开源软件声明

    包括免责声明、版权声明和许可等信息。

  • 通信矩阵

    对软件通信源设备、IP、端口、协议等情况进行说明。

  • 术语

    提供昇腾术语和缩略语的含义及介绍。