执行安装命令
安装前必读
- 如果是批量安装,参考功能介绍完成相关配置后,请直接从3开始执行。
- 执行--install、--install-scene和--patch参数安装CANN和ToolBox时,用户需签署华为企业业务最终用户许可协议(EULA)后方可进入安装流程,根据回显页面执行Y确认阅读并同意华为企业业务最终用户许可协议,确认接受协议后自动开始安装。
- 使用ascend-deployer工具安装前,请确保工具所在设备的可用内存在16G以上。
- 安装MindX DL和MEF Center场景时,请确保根目录可用空间在30G以上。
- 如果获取的驱动固件包为Ascend-hdk系列(如Ascend-hdk-*-npu_*-{arch}.zip)的软件包时,无需配置cus_npu_info参数。若不是,则Atlas 300I Pro、Atlas 300V Pro、Atlas 300V、A300T-9000和Atlas 300T pro在安装驱动和固件时,必须在inventory_file中提前配置cus_npu_info参数,其中Atlas 300I Pro配置为300i-pro,Atlas 300V Pro配置为300v-pro,Atlas 300V配置为300v,A300T-9000配置为300t,Atlas 300T Pro配置为300t-pro,参考示例如下:
[worker] localhost ansible_connection='local' cus_npu_info='300i-pro'
安装步骤
- 以软件包的安装用户登录待安装设备。
- 将ascend-deployer整个目录上传到待安装设备的用户家目录(如“$HOME”)下。如果是直接在待安装设备上使用ascend-deployer的下载功能,请忽略此步骤。
- 非root用户使用离线部署工具时,需具有ascend-deployer目录的操作权限,同时请提前设置环境umask为022,设置前请确认该umask权限符合所在组织的安全要求。
- 如果是使用root用户安装,且需要其他用户能够使用root用户后续安装的Python等,请提前设置环境umask为022,设置前请确认该umask权限符合所在组织的安全要求。
- 进入ascend-deployer目录,执行安装脚本(安装用户需具有install.sh的可执行权限),可根据需要选择安装方式(指定场景安装或指定软件安装)。如果用户是在本机上使用pip安装ascend-deployer,则可在本机任意路径使用ascend-deployer命令进行安装。与执行安装脚本命令的区别是将以下命令中的"bash install.sh"替换为"ascend-deployer",如"ascend-deployer --install-scene=auto"。
- 指定场景安装(仅支持root用户)
无论指定何种场景安装,都会自动安装docker,便于进行容器部署。在安装过程中会创建相应的docker组。安装依赖前请确认系统上是否已安装docker,如果已安装,请卸载后再进行系统依赖的安装。
- (可选)安装前检查。安装前可根据安装的场景,执行如下命令测试是否支持安装,测试通过后再执行安装操作。
bash install.sh --install-scene=<scene_name> --check --stdout_callback=ansible_log
ascend-deployer工具提供几个基本安装场景,<scene_name>具体可参考可选安装场景。--stdout_callback=ansible_log为可选参数,用来启用打屏显示插件。
命令示例如下:
bash install.sh --install-scene=auto --check //测试是否支持安装驱动固件、CANN,MindSpore,MindStudio,Torch-npu等
- 执行安装命令。
bash install.sh --install-scene=<scene_name>
<scene_name>具体可参考可选安装场景。
命令示例如下:
bash install.sh --install-scene=auto //安装驱动固件、CANN,MindSpore,MindStudio,Torch-npu等 bash install.sh --install-scene=dl //安装驱动固件、DL相关组件等 bash install.sh --install-scene=mef //MEF Center相关组件
- 安装场景涉及安装CANN和ToolBox时,用户需签署华为企业业务最终用户许可协议(EULA)后进入安装流程,根据回显页面执行y或Y确认协议,输入其他任意字符为拒绝协议,确认接受协议后自动开始安装。
若当前语言环境不满足要求,可以执行如下命令配置系统的默认语言环境。
#配置为中文(简体) export LANG=zh_CN.UTF-8 #配置为英文 export LANG=en_US.UTF-8
- (可选)安装前检查。安装前可根据安装的场景,执行如下命令测试是否支持安装,测试通过后再执行安装操作。
- 指定软件安装
如果使用root用户,支持安装ascend-deployer工具下载的所有软件。如果使用非root用户,仅支持安装表1所示软件。请先使用root用户安装完sys_pkg(系统组件)、npu(驱动与固件,为昇腾设备时安装)等后,再使用非root用户安装表1中的软件。
表1 软件列表 软件
说明
python、gcc
python3.x.x和gcc7.3.0,安装在$HOME/.local/目录下。
框架
包括tensorflow、pytorch、mindspore。
CANN软件
包括nnae、nnrt、tfplugin、toolkit、kernels。
- root安装在/usr/local/Ascend目录下。
- 普通用户安装在$HOME/Ascend目录下。
toolbox
- root安装在/usr/local/Ascend目录下。
- 普通用户安装在$HOME/Ascend目录下。
- 若安装MindX 3.0.0之前版本的toolbox时,非root用户安装toolbox会跳过工具包中容器引擎插件Ascend-docker-runtime的安装。如果需要使用Ascend-docker-runtime,请使用root用户安装toolbox。
MindStudio
- 安装在$HOME目录下。
- 如果非root用户需要安装MindStudio,请先使用root用户安装MindStudio(部分依赖需要root用户安装)后,再使用非root用户安装MindStudio。
MindX DL
- 已有K8s、Docker和驱动固件场景下,可选择以下组件安装,包括ascend-device-plugin,ascend-docker-runtime,hccl-controller,noded,npu-exporter,volcano,ascend-operator,resilience-controller。
- CTyunOS场景下,须已安装K8s,同时不支持安装hccl-controller和resilience-controller组件。
- (可选)安装前检查。安装前可根据安装的软件包,执行如下命令测试是否支持安装,测试通过后再执行安装操作。
bash install.sh --install=<package_name> --check --stdout_callback=ansible_log
<package_name>可选范围可通过执行bash install.sh --help查看,--stdout_callback=ansible_log为可选参数,用来启用打屏显示插件。命令示例如下:
bash install.sh --install=toolkit --check --stdout_callback=ansible_log
- 执行安装命令。
bash install.sh --install=<package_name_1>,<package_name_2>
<package_name_x>可选范围可通过执行bash install.sh --help查看。命令示例如下:
bash install.sh --install=sys_pkg,python,npu //安装系统组件、Python、驱动和固件 bash install.sh --install=toolkit //安装toolkit bash install.sh --install=kernels //安装kernels bash install.sh --install=tfplugin //安装tfplugin bash install.sh --install=tensorflow //安装tensorflow bash install.sh --install=pytorch //安装pytorch bash install.sh --install=mindspore //安装mindspore bash install.sh --install=ief //安装IEF Agent bash install.sh --install=mindstudio //安装MindStudio bash install.sh --install=ascend-device-plugin //安装Ascend Device Plugin bash install.sh --install=ascend-docker-runtime //安装Ascend Docker Runtime
- 安装时,运行环境时间需要通过date -s命令校准到正确的UTC时间。
- 请按照“sys_pkg>python>npu>CANN软件包(toolkit、nnrt等)>AI框架(tensorflow、mindspore或pytorch)”的顺序进行安装,安装时resources目录下的CANN包版本需和npu配套。
- TensorFlow2.6.5存在漏洞,请参考相关漏洞及其修复方案处理。
- 安装kernels时,会默认安装在同一版本的toolkit下,未安装toolkit时,则安装在nnae下,toolkit和nnae都未安装,则默认跳过安装。安装后的路径(以跟随toolkit安装为例):“软件包安装路径/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe/kernel”。
- 使用ascend-deployer工具时,如果因为环境变量问题工具无法运行,用户需自行根据环境实际状况配置ASCENDPATH进行处理。
- gcc版本低于7.3.0,ascend-deployer工具会自动安装,该过程耗时较长,用户可通过手动提前升级并配置环境变量。gcc7.3.0安装后需要配置环境变量或建立软链接才能使用,请参考•配置gcc环境变量。模型训练要求7.3.0版本...。
- 安装npu时,会提前获取设备健康状态。如果设备存在问题,则会终止整个安装过程。
- 安装npu后,请根据安装npu过程中的系统提示信息决定是否重启系统(如需重启,请执行reboot命令)。
- 部分组件存在运行时依赖,如PyTorch需要toolkit或nnae提供运行时依赖,TensorFlow调用npu资源需要tfplugin+toolkit或tfplugin+nnae组合提供运行时依赖,MindSpore需要driver和toolkit提供运行时依赖。
- 所有Python库的安装都必须先安装Python,如TensorFlow、MindSpore、PyTorch等。
- 其中指定“--install=mindspore”会安装在线下载中下载好的MindSpore包,用户也可参考Mindspore官网自行安装,请注意MindSpore与驱动、固件、CANN软件的版本配套关系。
- IEF Agent安装完成后,需要登录管理控制台-智能边缘平台,选择左侧导航栏的“边缘资源 > 边缘节点”,在边缘节点列表中查看已纳管的边缘节点状态。如果节点状态为“运行中”,表示纳管成功。
- 安装场景涉及安装CANN和ToolBox时,用户需签署华为企业业务最终用户许可协议(EULA)后进入安装流程,根据回显页面执行y或Y确认协议,输入其他任意字符为拒绝协议,确认接受协议后自动开始安装。
若当前语言环境不满足要求,可以执行如下命令配置系统的默认语言环境。
#配置为中文(简体) export LANG=zh_CN.UTF-8 #配置为英文 export LANG=en_US.UTF-8
- 指定场景安装(仅支持root用户)
- 安装完成后会在当前路径下生成report目录,包含安装报告report.csv和report.json文件,报告文件中记录了服务器IP地址、驱动类型、安装的软件包及版本号、安装的节点、DL的安装结果等信息。
父主题: 安装过程