安装APEX模块
APEX混合精度模块是一个集优化性能、精度收敛于一身的综合优化库,可以支持不同场景下的混合精度训练。
混合精度训练是在训练时混合使用单精度(float32)与半精度(float16)数据类型,将两者结合在一起,并使用相同的超参数实现了与float32几乎相同的精度。在迁移完成、训练开始之前,基于NPU硬件的架构特性,用户可以选择开启混合精度,用以提升模型的性能。
推荐用户通过编译源码包安装APEX模块。
方式一(推荐):容器场景
下载APEX源码。
[object Object]构建镜像。
[object Object][object Object]
进入Docker容器,并将APEX源代码挂载至容器内。
[object Object]{code_path} 表示APEX源代码路径,请根据实际情况进行替换。
安装torch。
[object Object]以Python3.10、PyTorch 2.7.1为例,其他Python及torch版本请根据实际场景修改命令再执行。
[object Object]
编译生成二进制安装包。
[object Object]如需指定其他Python版本请使用--python=3.9、--python=3.11或--python=3.12。
命令完成后进入apex/dist/目录,可获取wheel格式的二进制安装包。
[object Object]
在运行环境中如下命令进行安装。如果使用非root用户进行安装,需要在命令后加
[object Object]。[object Object]
方式二:物理机及虚拟机场景
安装依赖。
选择编译安装方式安装时需要安装系统依赖,根据不同类型的操作系统,选择对应的命令安装所需依赖。
openEuler、CentOS、Kylin、BCLinux、UOS V20、AntOS、AliOS、CTyunOS、CULinux、Tlinux、MTOS、vesselOS:
Debian、Ubuntu、veLinux:
[object Object][object Object] 表 1 gcc和cmake版本要求
[object Object]undefined
[object Object]
请确保已安装PyTorch框架且setuptools版本小于等于65.7.0,若版本不符合条件,可使用以下命令安装。
[object Object]获取昇腾适配的APEX源码。
[object Object]进入昇腾适配的APEX源码目录,执行命令编译生成二进制安装包。
[object Object][object Object]
执行如下命令进行安装。如果使用非root用户安装,需要在命令后加
[object Object]。[object Object]命令示例:
[object Object]
[object Object]