执行安装命令
安装前必读
- 如果是批量安装,参考安装介绍完成相关配置后,请直接从步骤 3开始执行。
- Ascend Deployer工具所需依赖较多,建议在工具下载的OS依赖安装完成后,对用户自行上传软件包进行安装或者升级等操作。
- 执行--install、--install-scene和--patch参数安装CANN和ToolBox时,用户需签署华为企业业务最终用户许可协议(EULA)后方可进入安装流程,根据回显页面执行y或Y确认阅读并同意华为企业业务最终用户许可协议,确认接受协议后自动开始安装。
- 使用Ascend Deployer工具安装前,请确保工具所在设备的可用内存在16G以上。
- 训练场景安装ToolBox时,需要先安装npu-driver、npu-firmware、nnae或开发套件包;推理场景安装ToolBox需先安装npu-driver、npu-firmware、nnrt或开发套件包。
- 安装MindX DL和MEF Center场景时,请确保系统中Docker容器、文件系统或根目录的磁盘空间,在已用空间基础上额外使用18G(DL镜像和训练推理镜像预估值)后,剩余可用空间大于30%。
- 安装MindX DL时,不同操作系统节点间组建集群可能会导致安装失败。
- 执行--install命令时,请勿重复安装sys_pkg,或重复执行--install-scene命令,否则会导致安装失败。
安装步骤
- 以软件包的安装用户登录待安装设备。
- 将ascend-deployer整个目录上传到待安装设备的用户家目录(如“$HOME”)下。如果是直接在待安装设备上使用Ascend Deployer的下载功能,请忽略此步骤。
- 进入ascend_deployer目录,执行安装脚本(安装用户需具有install.sh的可执行权限),可根据需要选择安装方式(指定场景安装或指定软件安装)。如果用户是在本机上使用pip安装Ascend Deployer,则可在本机任意路径使用ascend-deployer命令进行安装。与执行安装脚本命令的区别是将以下命令中的"bash install.sh"替换为"ascend-deployer",如"ascend-deployer --install-scene=auto"。
- 指定场景安装(仅支持root用户)
- 执行安装命令。
bash install.sh --install-scene=<scene_name>
<scene_name>具体可参考可选安装场景。
--skip_check为可选参数,用于决定是否执行安装检查,检查项见参数说明。不传入此参数时,会执行安装检查。若检查失败,安装将终止。传入此参数时,参数默认值为true,跳过安装检查直接进入安装。
命令示例如下:
bash install.sh --install-scene=auto --skip_check //安装驱动固件,CANN,AI框架等,跳过安装检查 bash install.sh --install-scene=mef //安装MEF Center相关组件,执行安装检查 - 涉及安装CANN和ToolBox时,用户需签署华为企业业务最终用户许可协议(EULA)后进入安装流程,根据回显页面执行y或Y确认协议,输入其他任意字符为拒绝协议,确认接受协议后自动开始安装。若当前语言环境不满足要求,可以执行如下命令配置系统的默认语言环境。
#配置为中文(简体) export LANG=zh_CN.UTF-8 #配置为英文 export LANG=en_US.UTF-8
- 涉及到安装驱动固件时,建议安装完成后立即重启。单机安装时重启请执行reboot命令。批量安装则执行以下命令重启所有设备。
- 如果Ascend Deployer工具是部署在某一台待安装设备上,需要先在“inventory_file”屏蔽本机IP地址,如下加粗内容所示,否则执行3.c.ii时可能还未发送重启命令到其他服务器,本机就已重启,导致其他服务器无法重启。如果Ascend Deployer工具是部署在通用服务器可以跳过本步骤。
#本机ip_address ansible_ssh_user="root" # 屏蔽本机IP
- 重启服务器。
ansible -i inventory_file all -m shell -a 'reboot'
- 其他待安装设备重启后,请在“inventory_file”中解除屏蔽的本机IP,然后执行reboot命令重启本机。
- 如果Ascend Deployer工具是部署在某一台待安装设备上,需要先在“inventory_file”屏蔽本机IP地址,如下加粗内容所示,否则执行3.c.ii时可能还未发送重启命令到其他服务器,本机就已重启,导致其他服务器无法重启。如果Ascend Deployer工具是部署在通用服务器可以跳过本步骤。
- 执行安装命令。
- 指定软件安装
如果使用root用户,支持安装Ascend Deployer工具下载的所有软件。
Ascend Deployer只支持指定安装近一年内的软件版本。
- 执行安装命令。
bash install.sh --install=<package_name_1>,<package_name_2><package_name_x>可选范围可通过执行bash install.sh --help查看。
--skip_check为可选参数,用于决定是否执行安装检查,检查项见参数说明。不传入此参数时,会执行安装检查。若检查失败,安装将终止。传入此参数时,参数默认值为true,跳过安装检查直接进入安装。
命令示例如下:
bash install.sh --install=sys_pkg,python,npu --skip_check //安装系统组件、Python、驱动和固件,并跳过安装检查 bash install.sh --install=toolkit //安装toolkit,执行安装检查 bash install.sh --install=kernels //安装kernels,执行安装检查 bash install.sh --install=tfplugin //安装tfplugin,执行安装检查 bash install.sh --install=tensorflow //安装tensorflow,执行安装检查 bash install.sh --install=pytorch //安装pytorch,执行安装检查 bash install.sh --install=mindspore //安装mindspore,执行安装检查 bash install.sh --install=ief //安装IEF Agent,执行安装检查 bash install.sh --install=mindstudio //安装MindStudio,执行安装检查 bash install.sh --install=ascend-device-plugin //安装Ascend Device Plugin,执行安装检查 bash install.sh --install=ascend-docker-runtime //安装Ascend Docker Runtime,执行安装检查 bash install.sh --install=mindio //安装mindio,执行安装检查 bash install.sh --install=fault-diag //安装故障诊断组件,执行安装检查
- 安装时,运行环境时间需要通过date -s命令校准到正确的UTC时间。
- 请按照“sys_pkg>python>npu>CANN(toolkit、nnrt等)、MindXDL、MindIO软件包>AI框架(tensorflow、mindspore或pytorch)”的顺序进行安装,安装时resources目录下的CANN包版本需和npu配套。
- TensorFlow2.6.5存在漏洞,请参考相关漏洞及其修复方案处理。
- 安装kernels时,会默认安装在同一版本的nnae下,未安装nnae时,则安装在toolkit下,toolkit和nnae都未安装,则默认跳过安装。安装后的路径(以跟随toolkit安装为例):“软件包安装路径/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe/kernel”。
- 安装toolkit时,会自动编译安装HCCL性能测试工具,安装后的路径:软件包安装路径/ascend-toolkit/latest/tools/hccl_test。
- gcc版本低于7.3.0,Ascend Deployer工具会自动安装。
- 安装npu时,会提前获取设备健康状态。如果设备存在问题,则会终止整个安装过程。
- 部分组件存在运行时依赖,如PyTorch需要toolkit或nnae提供运行时依赖,除此之外在Atlas A2 训练系列产品中,装PyTorch时还需安装kernels。TensorFlow调用npu资源需要tfplugin+toolkit或tfplugin+nnae组合提供运行时依赖,MindSpore需要nnae或toolkit提供运行时依赖。
- 所有Python库的安装都必须先安装Python,如TensorFlow、MindSpore、PyTorch等。
- 其中指定“--install=mindspore”会安装下载软件包中下载好的MindSpore包,用户也可参考Mindspore官网自行安装,请注意MindSpore与驱动、固件、CANN软件的版本配套关系。
- IEF Agent安装完成后,需要登录管理控制台-智能边缘平台,选择左侧导航栏的“边缘资源 > 边缘节点”,在边缘节点列表中查看已纳管的边缘节点状态。如果节点状态为“运行中”,表示纳管成功。
- 涉及安装CANN和ToolBox时,用户需签署华为企业业务最终用户许可协议(EULA)后进入安装流程,根据回显页面执行y或Y确认协议,输入其他任意字符为拒绝协议,确认接受协议后自动开始安装。若当前语言环境不满足要求,可以执行如下命令配置系统的默认语言环境。
#配置为中文(简体) export LANG=zh_CN.UTF-8 #配置为英文 export LANG=en_US.UTF-8
- 涉及到安装驱动固件时,建议安装完成后立即重启。单机安装时重启请执行reboot命令。批量安装则执行以下命令重启所有设备。
- 如果Ascend Deployer工具是部署在某一台待安装设备上,需要先在“inventory_file”屏蔽本机IP地址,如下加粗内容所示,否则执行3.c.ii时可能还未发送重启命令到其他服务器,本机就已重启,导致其他服务器无法重启。如果Ascend Deployer工具是部署在通用服务器可以跳过本步骤。
#本机ip_address ansible_ssh_user="root" # 屏蔽本机IP
- 重启服务器。
ansible -i inventory_file all -m shell -a 'reboot'
- 其他待安装设备重启后,请在“inventory_file”中解除屏蔽的本机IP,然后执行reboot命令重启本机。
- 如果Ascend Deployer工具是部署在某一台待安装设备上,需要先在“inventory_file”屏蔽本机IP地址,如下加粗内容所示,否则执行3.c.ii时可能还未发送重启命令到其他服务器,本机就已重启,导致其他服务器无法重启。如果Ascend Deployer工具是部署在通用服务器可以跳过本步骤。
- 执行安装命令。
- 指定场景安装(仅支持root用户)
- 安装完成后会在当前路径下生成report目录,包含安装报告report.csv和report.json文件,报告文件中记录了服务器IP地址、驱动类型、安装的软件包及版本号、安装的节点、DL的安装结果等信息。在~/.ascend_deployer/deploy_info下会生成安装进度信息文件deployer_progress_output.json,查看安装过程和状态信息。
父主题: 使用Deployer批量安装软件包