昇腾社区首页
中文
注册

制作Rec SDK Torch训练镜像

使用Debian 12制作训练镜像

参考基础镜像构建里的DockerFile和Readme制作镜像。

启动容器

#!/bin/bash
container_name=$1
image_name=$2
docker run \
-it \
--name ${container_name} \
--shm-size="300g" \
-v /etc/localtime:/etc/localtime \
-e ASCEND_VISIBLE_DEVICES=0-7 \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
${image_name} \
/bin/bash

安装Rec SDK Torch

  1. 参考获取Rec SDK Torch软件包获取Rec SDK Torch软件包。
  2. 将软件包拷贝到容器中(上述启动容器命令已将home目录挂载,故可以将其拷贝到容器和宿主机均可访问的home目录下)。
  3. 按照如下步骤进行编译和安装包。
    1. 安装Ascend-mindxsdk-torchrec-1.1.0-npu-linux-*.tar.gz
      # 安装Ascend-mindxsdk-torchrec-1.1.0-npu-linux-*.tar.gz
      tar zxvf Ascend-mindxsdk-torchrec-1.1.0-npu-linux-*.tar.gz
      pip3 install torchrec-1.1.0+npu-py3-none-linux_*.whl
    2. 安装Ascend-mindxsdk-hybrid-torchrec-1.1.0-linux-*.tar.gz
      # 安装Ascend-mindxsdk-hybrid-torchrec-1.1.0-linux-*.tar.gz
      tar zxvf Ascend-mindxsdk-hybrid-torchrec-1.1.0-linux-*.tar.gz
      pip3 install hybrid_torchrec-1.1.0-py3-none-linux_*.whl
    3. 安装Ascend-mindxsdk-mxrec-add-ons-linux-*.tar.gz
      tar zxvf Ascend-mindxsdk-mxrec-add-ons-linux-*.tar.gz
      # 安装算子
      cd mindxsdk-mxrec-add-ons/mxrec_ops
      bash mxrec_opp_asynchronous_complete_cumsum.run
      bash mxrec_opp_backward_codegen_adagrad_unweighted_exact.run
      bash mxrec_opp_permute2d_sparse_data.run
      bash mxrec_opp_split_embedding_codegen_forward_unweighted.run
      # 安装libfbgemm_npu_api.so 
      cd ../torch_plugin/torch_library/2.6.0/common/
      bash build_ops.sh
      安装算子的参数如表1所示。
      表1 参数说明

      输入参数

      说明

      --help | -h

      查询帮助信息。

      --info

      查询安装包的信息。

      --list

      查询安装包的文件列表。

      --check

      查询压缩包完整性。

      --quiet

      静默安装方式。

      --nox11

      不启动xterm终端。

      --noexec

      不执行嵌入的安装脚本。

      --extract=<path>

      直接解压到目标目录,通常与--noexec配合使用,仅解压文件而不运行脚本。

      --tar arg1 [arg2 ...]

      通过tar命令访问压缩包内容。

      --install-path

      安装到指定目录路径。

    安装算子后,/usr/local/Ascend/ascend-toolkit/latest/opp/vendors/目录下会生成split_embedding_codegen_forward_unweighted、backward_codegen_adagrad_unweighted_exact、asynchronous_complete_cumsum、permute2d_sparse_data等文件夹。如果没有相关文件夹,请使用unset ASCEND_CUSTOM_OPP_PATH取消环境变量后重新安装算子。