Dump数据前环境准备
前提条件
请完成PyTorch 1.5.0框架的安装。
操作步骤
- 编译安装hdf5。
- 获取代码。
git clone https://github.com/HDFGroup/hdf5.git
- 切换到 hdf5-1_10_7分支。
cd hdf5 git checkout hdf5-1_10_7
- 编译hdf5。
./configure --prefix=/usr/local/hdf5 --enable-cxx make -j72 #-j 后的数值可以根据CPU的核数设置 make check # run test suite. make install make check-install # verify installation.
- 添加环境变量。
export PATH=/usr/local/hdf5/bin:$PATH export LD_LIBRARY_PATH=/usr/local/hdf5/lib:$LD_LIBRARY_PATH export LIBRARY_PATH=/usr/local/hdf5/lib:$LIBRARY_PATH export CPATH=/usr/local/hdf5/include:$CPATH
- 获取代码。
- 修改PyTorch编译选项。
- 进入pytorch路径下编辑build.sh文件。
cd pytorch vim build.sh
- 修改编译选项。
- NPU版本的修改
当需要获取基于昇腾AI处理器执行模型训练生成的数据文件时,须将build.sh文件中的“DEBUG=0 USE_DISTRIBUTED=1 USE_HCCL=1 USE_MKLDNN=0 USE_CUDA=0 USE_NPU=1 BUILD_TEST=0 USE_NNPACK=0 python3 setup.py build bdist_wheel”中添加“USE_DUMP=1”字段。修改示例如下:
- 修改前:
DEBUG=0 USE_DISTRIBUTED=1 USE_HCCL=1 USE_MKLDNN=0 USE_CUDA=0 USE_NPU=1 BUILD_TEST=0 USE_NNPACK=0 python3 setup.py build bdist_wheel
- 修改后:
DEBUG=0 USE_DISTRIBUTED=1 USE_HCCL=1 USE_MKLDNN=0 USE_CUDA=0 USE_NPU=1 BUILD_TEST=0 USE_NNPACK=0 USE_DUMP=1 python3 setup.py build bdist_wheel
- 修改前:
- GPU版本的修改当需要获取基于GPU执行模型训练生成的数据文件时,须启用build.sh文件中的GPU编译配置选项,可直接启用for build GPU torch行,添加“USE_DUMP=1”字段(开启数据dump编译选项),并将NPU编译配置选项注释。
GPU版本需要在GPU服务器上安装CUDA中的CUDNN库后编译。
修改示例如下:
- 修改前:
# for build GPU torch:DEBUG=0 USE_DISTRIBUTED=0 USE_HCCL=0 USE_NCCL=0 USE_MKLDNN=0 USE_CUDA=1 USE_NPU=0 BUILD_TEST=0 USE_NNPACK=0 python3.7 setup.py build bdist_wheel DEBUG=0 USE_DISTRIBUTED=1 USE_HCCL=1 USE_MKLDNN=0 USE_CUDA=0 USE_NPU=1 BUILD_TEST=0 USE_NNPACK=0 python3 setup.py build bdist_wheel
- 修改后:
DEBUG=0 USE_DISTRIBUTED=0 USE_HCCL=0 USE_NCCL=0 USE_MKLDNN=0 USE_CUDA=1 USE_NPU=0 BUILD_TEST=0 USE_NNPACK=0 USE_DUMP=1 python3.7 setup.py build bdist_wheel # DEBUG=0 USE_DISTRIBUTED=1 USE_HCCL=1 USE_MKLDNN=0 USE_CUDA=0 USE_NPU=1 BUILD_TEST=0 USE_NNPACK=0 python3 setup.py build bdist_wheel
- 修改前:
- NPU版本的修改
- 进入pytorch路径下编辑build.sh文件。
- 编译PyTorch。
bash build.sh
- 安装whl文件。
- 编译PyTorch完成后会生成PyTorch的whl包,执行卸载系统上的PyTorch包,安装编译完成的PyTorch包。
pip3 uninstall torch pip3 install torch-1.5.0+ascend.post2-cp37-cp37m-linux_x86_64.whl
- 进入Python视图,验证whl文件是否安装成功。
python3 import torch
若执行import torch命令不提示错误,则Python环境安装成功。
- 编译PyTorch完成后会生成PyTorch的whl包,执行卸载系统上的PyTorch包,安装编译完成的PyTorch包。