基本概念
什么是MindCluster?
MindCluster(AI集群系统软件)是支持NPU(昇腾AI处理器)训练和推理硬件的深度学习组件,使能构建集群全流程运行,提供NPU集群作业调度、运维监控、故障恢复等功能,为上层模型训练、模型评估、模型部署、模型推理等应用提供底层软件支持。深度学习平台开发厂商可以减少底层资源调度相关软件开发工作量,快速使能合作伙伴基于MindCluster开发深度学习平台。
- 安装部署:提供昇腾软件和其依赖软件的在线下载、安装和签名校验。
- 性能测试:提供Atlas硬件产品兼容性检查、性能测试、故障诊断等功能。
- 故障诊断:提供训练和推理任务的日志清洗和故障诊断功能,定位失败根因。
- 集群调度
- 基础调度:提供NPU资源调度和管理、生成分布式训练集合通信配置等功能。
- 断点续训:感知故障,根据训练任务需要,重新分配资源,恢复训练任务。
什么是断点续训?
在训练任务运行过程中,若设备出现故障会导致训练任务中断。如果想要继续运行训练任务,需要重新开始运行,影响训练效率或造成其他损失等。
断点续训支持当训练任务因为外部因素中断时,由调度器将中断的训练任务调度到其他节点上继续运行。该特性基于重调度、优雅容错等功能,实现了任务的不间断和不重头训练,提升用户在运行训练任务时的使用感和体验感。
什么是基础调度?
提供NPU资源调度和管理、生成分布式训练集合通信配置等功能。
基础调度包含如下特性:
什么是容器化支持?
为所有的训练或推理作业提供NPU容器化支持,自动挂载所需文件和设备依赖,使用户AI作业能够以Docker容器的方式平滑运行在昇腾设备之上。
什么是资源监测?
支持在执行训练或者推理任务,对昇腾AI处理器资源各种数据信息的实时监测,可实时获取昇腾AI处理器利用率、温度、电压、内存,以及昇腾AI处理器在容器中的分配状况等信息,实现资源的实时监测。支持对Atlas 推理系列产品的虚拟NPU(vNPU)的AI Core利用率、vNPU总内存和vNPU使用中内存进行监测。
什么是虚拟化实例?
昇腾虚拟化实例功能是指通过资源虚拟化的方式将物理机或虚拟机配置的NPU(昇腾AI处理器)切分成若干份vNPU(虚拟NPU)挂载到容器中使用,虚拟化管理方式能够实现统一不同规格资源的分配和回收处理,满足多用户反复申请/释放的资源操作请求。
昇腾虚拟化实例功能的优点是可实现多个用户按需申请共同使用一台服务器,降低了用户使用NPU算力的门槛和成本。多个用户共同使用一台服务器的NPU,并借助容器进行资源隔离,资源隔离性好,保证运行环境的平稳和安全,且资源分配,资源回收过程统一,方便多租户管理。
什么是MindCluster ToolBox?
- Ascend DMI工具主要为Atlas产品的标卡、板卡及模组类产品提供带宽测试、算力测试、功耗测试等功能。
- 日志收集工具主要在故障分析定位时收集运行环境信息、昇腾NPU健康信息、昇腾软件日志、Device的系统级日志和MindEdge、MindSDK日志。
- Ascend Cert工具主要为软件包提供数据签名校验、CRL证书吊销列表的比较更新功能,保证软件包的安全性和CRL文件的有效性。
Ascend DMI工具有哪些功能?
Ascend DMI工具主要为Atlas产品的标卡、板卡及模组类产品提供带宽测试、算力测试、功耗测试、眼图测试、码流测试、设备实时状态查询、故障诊断、软硬件版本兼容性测试功能。通过调用底层DCMI(设备控制管理接口)以及AscendCL(Ascend Computing Language,昇腾计算语言)相关接口完成相关检测功能,对于系统级别的信息查询通过调用系统提供的通用库来实现,用户使用工具时通过配置参数来实现不同的测试功能。请参见《MindCluster ToolBox用户指南》获取工具使用指导。
日志收集工具有哪些功能?
日志收集工具提供了ascend-log-collect.sh脚本,用于在故障分析定位时收集运行环境信息、昇腾NPU健康信息、昇腾NPU日志、昇腾软件日志、Device的系统级日志和MindEdge、MindSDK日志。请参见《MindCluster ToolBox用户指南》获取工具使用指导。
Ascend Cert有哪些功能?
Ascend Cert工具主要为软件包提供数据签名校验、CRL证书吊销列表的比较更新功能,保证软件包的安全性和CRL文件的有效性。请参见《MindCluster ToolBox用户指南》获取工具使用指导。
什么是P2P测试?
Ascend DMI工具中带宽测试的一种方式,指测试指定源头Device到目标Device的传输速率和时延,支持在训练场景下使用。