导读
本章节将从特性说明、组件配置、使用参考等方面来指导开发者使用资源监测、基础调度和断点续训等特性。
文档总览
文档 |
内容介绍 |
获取文档 |
---|---|---|
《容器化支持特性指南》 |
详细介绍不同场景下如何使用容器化支持,配置自定义挂载内容。 |
|
《资源监测特性指南》 |
详细介绍资源监测的实现原理及2种不同场景下使用资源监测的操作指引。 |
|
《虚拟化实例特性指南》 |
包含了虚拟化实例的特性介绍及创建vNPU、销毁vNPU、挂载vNPU的使用指导。 |
|
《基础调度特性指南》 |
详细介绍了训练及推理场景下基础调度的使用流程、实现原理、使用方法等。 |
|
《断点续训特性指南》 |
详细介绍了断点续训的应用场景、功能特点、使用流程、集成指导以及使用参考。 |
|
《常用操作》 |
详细介绍了调度配置、安装NFS、查询上报的故障信息、制作镜像等常用操作的使用流程及操作步骤。 |
使用说明
华为确保集群调度的软件安全,但是使用指导中涉及的代码样例、模型使用示例、容器镜像等在码云或者昇腾社区公开发布的,仅用于用户参考。如果用户用于商业用途时,需用户自行确保资源的使用安全风险(如漏洞问题)。
- MindCluster集群调度组件主要用在数据中心,提供训练、推理的任务调度和NPU设备发现等基础功能,不包含上层的用户界面以及用户业务逻辑,需要被集成者进行二次开发后再使用。
- 推荐满足以下场景时,可以使用集群调度组件。
- 数据中心进行训练和推理。
- 设备中包含华为的昇腾AI处理器。
- 基于容器化技术部署。
- Kubernetes作为任务调度的基础平台。