Dump数据前环境准备

前提条件

请完成PyTorch 1.5.0框架的安装。

操作步骤

  1. 编译安装hdf5。

    1. 获取代码。
      git clone https://github.com/HDFGroup/hdf5.git 
    2. 切换到 hdf5-1_10_7分支。
      cd hdf5
      git checkout hdf5-1_10_7
    3. 编译hdf5。
      ./configure --prefix=/usr/local/hdf5 --enable-cxx
      make -j72                 #-j 后的数值可以根据CPU的核数设置
      make check                # run test suite.
      make install
      make check-install        # verify installation. 
    4. 添加环境变量。
      export PATH=/usr/local/hdf5/bin:$PATH
      export LD_LIBRARY_PATH=/usr/local/hdf5/lib:$LD_LIBRARY_PATH
      export LIBRARY_PATH=/usr/local/hdf5/lib:$LIBRARY_PATH
      export CPATH=/usr/local/hdf5/include:$CPATH 

  2. 修改PyTorch编译选项。

    1. 进入pytorch路径下编辑build.sh文件。
      cd pytorch
      vim build.sh
    2. 修改编译选项。
      • NPU版本的修改

        当需要获取基于昇腾AI处理器执行模型训练生成的数据文件时,须将build.sh文件中的“DEBUG=0 USE_DISTRIBUTED=1 USE_HCCL=1 USE_MKLDNN=0 USE_CUDA=0 USE_NPU=1 BUILD_TEST=0 USE_NNPACK=0 python3 setup.py build bdist_wheel”中添加“USE_DUMP=1”字段。修改示例如下:

        • 修改前:
          DEBUG=0 USE_DISTRIBUTED=1 USE_HCCL=1 USE_MKLDNN=0 USE_CUDA=0 USE_NPU=1 BUILD_TEST=0 USE_NNPACK=0 python3 setup.py build bdist_wheel
        • 修改后:
          DEBUG=0 USE_DISTRIBUTED=1 USE_HCCL=1 USE_MKLDNN=0 USE_CUDA=0 USE_NPU=1 BUILD_TEST=0 USE_NNPACK=0 USE_DUMP=1 python3 setup.py build bdist_wheel
      • GPU版本的修改
        当需要获取基于GPU执行模型训练生成的数据文件时,须启用build.sh文件中的GPU编译配置选项,可直接启用for build GPU torch行,添加“USE_DUMP=1”字段(开启数据dump编译选项),并将NPU编译配置选项注释。

        GPU版本需要在GPU服务器上安装CUDA中的CUDNN库后编译。

        修改示例如下:

        • 修改前:
          # for build GPU torch:DEBUG=0 USE_DISTRIBUTED=0 USE_HCCL=0 USE_NCCL=0 USE_MKLDNN=0 USE_CUDA=1 USE_NPU=0 BUILD_TEST=0 USE_NNPACK=0 python3.7 setup.py build bdist_wheel
          DEBUG=0 USE_DISTRIBUTED=1 USE_HCCL=1 USE_MKLDNN=0 USE_CUDA=0 USE_NPU=1 BUILD_TEST=0 USE_NNPACK=0 python3 setup.py build bdist_wheel
        • 修改后:
          DEBUG=0 USE_DISTRIBUTED=0 USE_HCCL=0 USE_NCCL=0 USE_MKLDNN=0 USE_CUDA=1 USE_NPU=0 BUILD_TEST=0 USE_NNPACK=0 USE_DUMP=1 python3.7 setup.py build bdist_wheel
          # DEBUG=0 USE_DISTRIBUTED=1 USE_HCCL=1 USE_MKLDNN=0 USE_CUDA=0 USE_NPU=1 BUILD_TEST=0 USE_NNPACK=0 python3 setup.py build bdist_wheel

  3. 编译PyTorch。

    bash build.sh

  4. 安装whl文件。

    1. 编译PyTorch完成后会生成PyTorch的whl包,执行卸载系统上的PyTorch包,安装编译完成的PyTorch包。
      pip3 uninstall torch
      pip3 install torch-1.5.0+ascend.post2-cp37-cp37m-linux_x86_64.whl
    2. 进入Python视图,验证whl文件是否安装成功。
      python3
      import torch

      若执行import torch命令不提示错误,则Python环境安装成功。