MindCluster

MindCluster是支持NPU（昇腾AI处理器）构建的深度学习系统组件，专为训练和推理任务提供集群级解决方案。赋能合作伙伴基于MindCluster快速开发深度学习平台，减少底层资源调度等相关软件开发的工作量。

MindCluster是什么
快速了解MindCluster的关键功能特性及全部组件。
版本说明
整体介绍了MindCluster产品软件版本信息，包括配套的软硬件说明、兼容性说明等信息。

安装部署

Ascend Deployer工具
Ascend Deployer提供昇腾软件的下载、安装及升级功能。

性能测试

Ascend DMI工具
提供Atlas硬件产品的兼容性检查、带宽测试、算力测试、功耗测试、诊断压测等功能。
日志收集工具
收集运行环境信息、昇腾NPU日志等信息。
Ascend Cert签名校验工具
提供软件包数字签名校验和更新CRL证书吊销列表等功能，保证软件包的安全性和CRL文件的有效性。

故障诊断

Ascend FaultDiag故障诊断工具
快速了解故障诊断工具的主要功能及使用流程。

集群调度

快速入门

集群调度快速入门
指导用户在Atlas 800T A2 训练服务器实现快速安装和使用。

组件安装

使用工具安装
指导用户使用Ascend Deployer工具安装集群调度组件。
手动安装
包含MindCluster集群调度各组件的安装、启动和验证方法。

断点续训

故障检测
提供节点、芯片、参数面网络等故障的检测功能。
故障处理
断点续训通过多种故障处理功能来恢复训练业务。
脚本适配
指导用户step by step地完成断点续训的适配步骤。

基础调度

整卡调度或静态vNPU调度（训练）
指导用户基于某模型部署并执行使用NPU的训练任务。
整卡调度或静态vNPU调度（推理）
指导用户在推理场景下使用整卡调度或静态vNPU调度。
动态vNPU调度（推理）
指导用户在推理场景下使用动态vNPU调度。

容器化支持

在Docker客户端使用
指导用户在Docker客户端上使用本功能。
在Containerd客户端使用
指导用户在Containerd客户端使用本功能。

资源监测

通过Prometheus使用
指导用户安装Prometheus，并通过Prometheus查看资源监测的数据信息。
通过Telegraf使用
指导用户安装Telegraf，并通过Telegraf查看资源监测的数据信息。

虚拟化实例

创建vNPU
指导用户如何创建vNPU。
基于原生Docker挂载vNPU
指导用户基于原生Docker完成vNPU的挂载。
基于MindCluster组件挂载vNPU
指导用户基于MindCluster组件完成vNPU的挂载。

亲和性调度

基于昇腾AI处理器的亲和性调度
包含亲和性规则、单机场景亲和性策略、分布式场景亲和性策略等。
基于节点的亲和性
介绍了节点亲和性的方案、亲和性规则等。
昇腾AI处理器的调度流程
介绍了集群调度各组件是如何配分工协作并完成昇腾AI处理器的调度。

CheckPoint保存与加载优化

安装MindIO ACP服务
介绍了如何在本地/容器中安装MindIO ACP。
使用MindIO ACP服务
介绍了DeepSpeed、X1、MindSpeed-LLM等框架下MindIO ACP的使用步骤。
API接口参考
包含接口功能、接口参数、使用样例等说明。

故障恢复加速

安装MindIO TFT服务
指导用户在计算节点安装MindIO TFT SDK。
使用MindIO TFT服务
介绍了多种场景下如何使用MindIO TFT。
API接口参考
包含接口功能、接口参数、接口格式等说明。

参考

昇腾产品形态说明
提供昇腾产品系列、产品型号等相关信息说明。
开源软件声明
包括免责声明、版权声明和许可等信息。
通信矩阵
对软件通信源设备、IP、端口、协议等情况进行说明。
术语
提供昇腾术语和缩略语的含义及介绍。