MindCluster
MindCluster是支持NPU(昇腾AI处理器)构建的深度学习系统组件,专为训练和推理任务提供集群级解决方案。赋能合作伙伴基于MindCluster快速开发深度学习平台,减少底层资源调度等相关软件开发的工作量。
性能测试
集群调度
快速入门
组件安装
断点续训
基础调度
- 整卡调度或静态vNPU调度(训练)
指导用户基于某模型部署并执行使用NPU的训练任务。
- 整卡调度或静态vNPU调度(推理)
指导用户在推理场景下使用整卡调度或静态vNPU调度。
- 动态vNPU调度(推理)
指导用户在推理场景下使用动态vNPU调度。
容器化支持
资源监测
- 通过Prometheus使用
指导用户安装Prometheus,并通过Prometheus查看资源监测的数据信息。
- 通过Telegraf使用
指导用户安装Telegraf,并通过Telegraf查看资源监测的数据信息。
虚拟化实例
- 创建vNPU
指导用户如何创建vNPU。
- 基于原生Docker挂载vNPU
指导用户基于原生Docker完成vNPU的挂载。
- 基于MindCluster组件挂载vNPU
指导用户基于MindCluster组件完成vNPU的挂载。
亲和性调度
- 基于昇腾AI处理器的亲和性调度
包含亲和性规则、单机场景亲和性策略、分布式场景亲和性策略等。
- 基于节点的亲和性
介绍了节点亲和性的方案、亲和性规则等。
- 昇腾AI处理器的调度流程
介绍了集群调度各组件是如何配分工协作并完成昇腾AI处理器的调度。
CheckPoint保存与加载优化
- 安装MindIO ACP服务
介绍了如何在本地/容器中安装MindIO ACP。
- 使用MindIO ACP服务
介绍了DeepSpeed、X1、MindSpeed-LLM等框架下MindIO ACP的使用步骤。
- API接口参考
包含接口功能、接口参数、使用样例等说明。
故障恢复加速