概述
本文介绍训练场景开发工具快速入门,主要针对训练开发流程中的模型开发&迁移、模型精度调试和模型性能调优环节分别使用的开发工具进行介绍。
主要工具介绍:
- msprobe工具:
基于昇腾开发的大模型或者是从GPU迁移到昇腾NPU环境的大模型,在训练过程中可能出现精度溢出、loss曲线跑飞或不收敛等异常问题。由于训练loss等指标无法精确定位问题模块,本文提供了msprobe(MindStudio Probe,精度调试工具)进行快速定界。精度调试工具在下文均简称为msprobe。
msprobe为mstt工具链的精度工具,通过分别对标杆环境(如已调试好的CPU、GPU或昇腾NPU等环境)和昇腾NPU环境下的训练精度数据进行采集和比对,从而找出差异点。
- MindSpore Profiler接口工具:MindSpore训练场景下的性能数据采集。
- Ascend PyTorch Profiler接口工具:PyTorch训练场景下的性能数据采集。
- msprof-analyze工具:统计、分析以及输出相关的调优建议。
- MindStudio Insight工具:对性能数据进行可视化展示。
使用流程
流程 |
使用工具和操作流程 |
---|---|
模型开发&迁移 |
MindSpore训练场景暂未提供迁移工具,本文以直接在昇腾NPU环境开发的训练脚本为例。 PyTorch训练场景使用分析迁移工具进行GPU向昇腾NPU环境迁移。 |
模型精度调试 |
使用msprobe工具在模型精度调试中主要执行如下操作: |
模型性能调优 |
MindSpore训练场景在模型性能调优中主要执行如下操作:
PyTorch训练场景在模型性能调优中主要执行如下操作:
|
环境准备
- 准备一台训练服务器(如
Atlas A2 训练系列产品 ),并安装NPU驱动和固件。 - 请参考安装CANN。
- 安装框架。
MindSpore训练场景以安装2.6.0和2.7.0版本为例,具体操作请参见《MindSpore安装指南》。
PyTorch训练场景以安装2.6.0版本为例,具体操作请参见适配插件开发(PyTorch框架)。
- 配置环境变量。
安装CANN软件后,使用CANN运行用户进行编译、运行时,需要以CANN运行用户登录环境,执行source ${install_path}/set_env.sh命令设置环境变量。其中${install_path}为CANN软件的安装目录,例如:/usr/local/Ascend/ascend-toolkit。