MindX DL MindX DL(昇腾深度学习组件)是支持Atlas训练卡、推理卡的深度学习组件,提供昇腾 AI 处理器集群调度、性能测试和模型保护等基础功能,快速使能合作伙伴进行深度学习平台开发。 成长地图 由浅入深,带您玩转MindX DL 01 产品简介 了解MindX DL的产品定位与特点,有助于您快速构建自己的深度学习平台。 产品介绍 产品简介 产品形态说明 03 性能测试 ascend-dmi工具主要为Atlas产品的标卡、板卡及模组类产品提供带宽测试、算力测试、故障诊断等功能。 方案介绍 什么是ascend-dmi 使用约束 使用指导 带宽测试 功耗测试 故障诊断 眼图测试 设备实时状态查询 算力测试 05 故障诊断 在昇腾训练场景下,指导用户使用设备日志采集、日志清洗与转储和故障诊断功能,高效定位训练任务失败与训练性能劣化的问题。 使用指导 安装组件 日志采集 日志清洗与转储 故障诊断 06 CheckPoint保存 MindIO ACP:MindIO加速大模型CheckPoint功能,主要针对大模型训练中的CheckPoint的保存及加载进行加速。 MindIO TTP:MindIO临终遗言功能,主要针对大模型训练过程中故障恢复加速,减少故障造成的训练迭代损失。 MindIO ACP 产品简介 安装MindIO Torch对接DeepSpeed框架 对接K8s 对接Docker API接口参考 MindIO TTP 产品简介 在计算节点安装MindIO TTP SDK 对接Megatron框架 API接口参考 02 安装部署 ascend-deployer工具提供OS依赖和docker的自动下载以及一键式安装的功能,并支持驱动、固件、CANN、MindX DL等软件包下载、安装和升级。 ascend-cert工具主要为软件包提供数据签名校验、CRL证书吊销列表的比较更新功能。 ascend-deployer 支持的OS清单和安装场景 使用deployer快速安装软件包 配置批量安装 配置参数面网络 ascend-Cert 签名校验 CRL更新 04 集群调度 MindX DL集群调度基于业界流行的集群调度系统Kubernetes,提供昇腾AI处理器资源管理和查看;实现了昇腾AI处理器优化调度、生成分布式训练集合通信配置等基础功能。 简介 特性介绍 快速入门 安装 支持的产品 手动安装 使用工具安装 使用 容器化支持 资源监测 基础调度 断点续训 参考信息 虚拟化实例 亲和性调度 更多资源 开发者资源专题呈现 CANN 统一异构计算架构 释放硬件澎湃算力 ModelZoo 快速部署基于昇腾 AI 处理器的预训练模型 MindX Edge 使能行业客户快速搭建边云协同推理平台 昇腾论坛 查看问题求助、干货分享、活动公告、需求建议 昇腾博客 向世界分享昇腾 AI 知识与见解