昇腾社区首页
中文
注册
开发者
下载

导读

本章节将从特性说明、组件配置、使用参考等方面来指导开发者使用资源监测、基础调度和断点续训等特性。

文档总览

文档

内容介绍

获取文档

《容器化支持特性指南》

详细介绍不同场景下如何使用容器化支持,配置自定义挂载内容。

Link

《资源监测特性指南》

详细介绍资源监测的实现原理及2种不同场景下使用资源监测的操作指引。

Link

《虚拟化实例特性指南》

包含了虚拟化实例的特性介绍及创建vNPU、销毁vNPU、挂载vNPU的使用指导。

Link

《基础调度特性指南》

详细介绍了训练及推理场景下基础调度的使用流程、实现原理、使用方法等。

Link

《断点续训特性指南》

详细介绍了断点续训的应用场景、功能特点、使用流程、集成指导以及使用参考。

Link

《常用操作》

详细介绍了调度配置、安装NFS、查询上报的故障信息、制作镜像等常用操作的使用流程及操作步骤。

Link

使用说明

华为确保集群调度的软件安全,但是使用指导中涉及的代码样例、模型使用示例、容器镜像等在码云或者昇腾社区公开发布的,仅用于用户参考。如果用户用于商业用途时,需用户自行确保资源的使用安全风险(如漏洞问题)。

  • MindCluster集群调度组件主要用在数据中心,提供训练、推理的任务调度和NPU设备发现等基础功能,不包含上层的用户界面以及用户业务逻辑,需要被集成者进行二次开发后再使用。
  • 推荐满足以下场景时,可以使用集群调度组件
    • 数据中心进行训练和推理。
    • 设备中包含华为的昇腾AI处理器
    • 基于容器化技术部署。
    • Kubernetes作为任务调度的基础平台。