6.0.RC1版本配套文档
文档名称 |
内容简介 |
|---|---|
《MindX DL 6.0.RC1 产品描述》 |
介绍整个MindX DL的功能特性和相关组件的功能。 |
《MindX DL 6.0.RC1 集群调度方案介绍》 |
集群调度组件的使用指导,用户需要提前了解集群调度组件的特性,并安装相应的组件。 |
《MindX DL 6.0.RC1 集群调度安装指南》 |
提供集群调度组件的安装部署指导,用户可以手动安装或者使用工具安装集群调度组件。 |
《MindX DL 6.0.RC1 集群调度用户指南》 |
提供集群调度组件特性的集成原理和使用参考。 |
《MindX DL 6.0.RC1 断点续训用户指南》 |
提供断点续训的集成原理和使用参考。 |
《MindX DL 6.0.RC1 Ascend Docker Runtime 用户指南》 |
为所有的训练或推理作业提供昇腾AI处理器(Ascend NPU)容器化支持。 |
《MindX DL 6.0.RC1 亲和性调度方案说明》 |
介绍集群调度组件提供的的昇腾AI处理器和交换机的亲和性调度策略。 |
《MindX DL 6.0.RC1 昇腾虚拟化实例(AVI)用户指南》 |
介绍了虚拟化场景和虚拟化模板,并提供相关场景下挂载vNPU的使用指导。 |
《MindX 6.0.RC1 ToolBox用户指南 》 |
提供带宽测试、算力测试、功耗测试、日志收集和软件包签名校验等功能的使用指导。 |
《MindX DL 6.0.RC1 故障诊断用户指南》 |
提供日志采集、日志清洗与转储、故障诊断等功能的使用指导。 |
《MindX DL 6.0.RC1 MindIO ACP用户指南》 |
介绍MindIO针对大模型训练中CheckPoint的保存及加载进行加速中纵向加速部分,包含CheckPoint在内存系统中的写入及读取过程。 |
《MindX DL 6.0.RC1 MindIO TTP用户指南》 |
介绍MindIO针对大模型训练过程中故障恢复加速的临终遗言功能。 |