制作Rec SDK Torch训练镜像
启动容器
#!/bin/bash container_name=$1 image_name=$2 docker run \ -it \ --name ${container_name} \ --shm-size="300g" \ -v /etc/localtime:/etc/localtime \ -e ASCEND_VISIBLE_DEVICES=0-7 \ -v /etc/ascend_install.info:/etc/ascend_install.info \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ ${image_name} \ /bin/bash
安装Rec SDK Torch
- 参考获取Rec SDK Torch软件包获取Rec SDK Torch软件包。
- 将软件包拷贝到容器中(上述启动容器命令已将home目录挂载,故可以将其拷贝到容器和宿主机均可访问的home目录下)。
- 按照如下步骤进行编译和安装包。
- 安装Ascend-mindxsdk-torchrec-1.1.0-npu-linux-*.tar.gz
# 安装Ascend-mindxsdk-torchrec-1.1.0-npu-linux-*.tar.gz tar zxvf Ascend-mindxsdk-torchrec-1.1.0-npu-linux-*.tar.gz pip3 install torchrec-1.1.0+npu-py3-none-linux_*.whl
- 安装Ascend-mindxsdk-hybrid-torchrec-1.1.0-linux-*.tar.gz
# 安装Ascend-mindxsdk-hybrid-torchrec-1.1.0-linux-*.tar.gz tar zxvf Ascend-mindxsdk-hybrid-torchrec-1.1.0-linux-*.tar.gz pip3 install hybrid_torchrec-1.1.0-py3-none-linux_*.whl
- 安装Ascend-mindxsdk-mxrec-add-ons-linux-*.tar.gz
tar zxvf Ascend-mindxsdk-mxrec-add-ons-linux-*.tar.gz # 安装算子 cd mindxsdk-mxrec-add-ons/mxrec_ops bash mxrec_opp_asynchronous_complete_cumsum.run bash mxrec_opp_backward_codegen_adagrad_unweighted_exact.run bash mxrec_opp_permute2d_sparse_data.run bash mxrec_opp_split_embedding_codegen_forward_unweighted.run # 安装libfbgemm_npu_api.so cd ../torch_plugin/torch_library/2.6.0/common/ bash build_ops.sh
安装算子的参数如表1所示。
安装算子后,/usr/local/Ascend/ascend-toolkit/latest/opp/vendors/目录下会生成split_embedding_codegen_forward_unweighted、backward_codegen_adagrad_unweighted_exact、asynchronous_complete_cumsum、permute2d_sparse_data等文件夹。如果没有相关文件夹,请使用unset ASCEND_CUSTOM_OPP_PATH取消环境变量后重新安装算子。
- 安装Ascend-mindxsdk-torchrec-1.1.0-npu-linux-*.tar.gz
父主题: 部署容器内的开发环境