执行安装命令

安装前必读

安装步骤

  1. 以软件包的安装用户登录待安装设备。
  2. 将ascend-deployer整个目录上传到待安装设备的用户家目录(如“$HOME”)下。如果是直接在待安装设备上使用Ascend Deployer的下载功能,请忽略此步骤。
  3. 进入ascend_deployer目录,执行安装脚本(安装用户需具有install.sh的可执行权限),可根据需要选择安装方式(指定场景安装或指定软件安装)。

    如果用户是在本机上使用pip安装Ascend Deployer,则可在本机任意路径使用ascend-deployer命令进行安装。与执行安装脚本命令的区别是将以下命令中的"bash install.sh"替换为"ascend-deployer",如"ascend-deployer --install-scene=auto"。
    • 指定场景安装(仅支持root用户)
      1. 执行安装命令。
        bash install.sh --install-scene=<scene_name>

        <scene_name>具体可参考可选安装场景

        --skip_check为可选参数,用于决定是否执行安装检查,检查项见参数说明。不传入此参数时,会执行安装检查。若检查失败,安装将终止。传入此参数时,参数默认值为true,跳过安装检查直接进入安装

        命令示例如下:

        bash install.sh --install-scene=auto --skip_check      //安装驱动固件,CANN,AI框架等,跳过安装检查
        bash install.sh --install-scene=mef                  //安装MEF Center相关组件,执行安装检查
      2. 涉及安装CANN和ToolBox时,用户需签署华为企业业务最终用户许可协议(EULA)后进入安装流程,根据回显页面执行y或Y确认协议,输入其他任意字符为拒绝协议,确认接受协议后自动开始安装。
        若当前语言环境不满足要求,可以执行如下命令配置系统的默认语言环境。
        #配置为中文(简体)
        export LANG=zh_CN.UTF-8
        #配置为英文
        export LANG=en_US.UTF-8
      3. 涉及到安装驱动固件时,建议安装完成后立即重启。单机安装时重启请执行reboot命令。批量安装则执行以下命令重启所有设备。
        1. 如果Ascend Deployer工具是部署在某一台待安装设备上,需要先在“inventory_file”屏蔽本机IP地址,如下加粗内容所示,否则执行3.c.ii时可能还未发送重启命令到其他服务器,本机就已重启,导致其他服务器无法重启。如果Ascend Deployer工具是部署在通用服务器可以跳过本步骤。
          #本机ip_address ansible_ssh_user="root" # 屏蔽本机IP
        2. 重启服务器。
          ansible -i inventory_file all -m shell -a 'reboot'
        3. 其他待安装设备重启后,请在“inventory_file”中解除屏蔽的本机IP,然后执行reboot命令重启本机。
    • 指定软件安装

      如果使用root用户,支持安装Ascend Deployer工具下载的所有软件。

      Ascend Deployer只支持指定安装近一年内的软件版本。

      1. 执行安装命令。
        bash install.sh --install=<package_name_1>,<package_name_2> 

        <package_name_x>可选范围可通过执行bash install.sh --help查看。

        --skip_check为可选参数,用于决定是否执行安装检查,检查项见参数说明。不传入此参数时,会执行安装检查。若检查失败,安装将终止。传入此参数时,参数默认值为true,跳过安装检查直接进入安装

        命令示例如下:

        bash install.sh --install=sys_pkg,python,npu  --skip_check           //安装系统组件、Python、驱动和固件,并跳过安装检查
        bash install.sh --install=toolkit                             //安装toolkit,执行安装检查
        bash install.sh --install=kernels                            //安装kernels,执行安装检查
        bash install.sh --install=tfplugin                          //安装tfplugin,执行安装检查
        bash install.sh --install=tensorflow                       //安装tensorflow,执行安装检查
        bash install.sh --install=pytorch                          //安装pytorch,执行安装检查
        bash install.sh --install=mindspore                       //安装mindspore,执行安装检查
        bash install.sh --install=ief                             //安装IEF Agent,执行安装检查
        bash install.sh --install=mindstudio                     //安装MindStudio,执行安装检查
        bash install.sh --install=ascend-device-plugin         //安装Ascend Device Plugin,执行安装检查
        bash install.sh --install=ascend-docker-runtime        //安装Ascend Docker Runtime,执行安装检查
        bash install.sh --install=mindio                        //安装mindio,执行安装检查
        bash install.sh --install=fault-diag                  //安装故障诊断组件,执行安装检查
        • 安装时,运行环境时间需要通过date -s命令校准到正确的UTC时间。
        • 请按照“sys_pkg>python>npu>CANN(toolkit、nnrt等)、MindXDL、MindIO软件包>AI框架(tensorflow、mindspore或pytorch)”的顺序进行安装,安装时resources目录下的CANN包版本需和npu配套。
        • TensorFlow2.6.5存在漏洞,请参考相关漏洞及其修复方案处理。
        • 安装kernels时,会默认安装在同一版本的nnae下,未安装nnae时,则安装在toolkit下,toolkit和nnae都未安装,则默认跳过安装。安装后的路径(以跟随toolkit安装为例):“软件包安装路径/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe/kernel”。
        • 安装toolkit时,会自动编译安装HCCL性能测试工具,安装后的路径:软件包安装路径/ascend-toolkit/latest/tools/hccl_test。
        • gcc版本低于7.3.0,Ascend Deployer工具会自动安装。
        • 安装npu时,会提前获取设备健康状态。如果设备存在问题,则会终止整个安装过程。
        • 部分组件存在运行时依赖,如PyTorch需要toolkit或nnae提供运行时依赖除此之外Atlas A2 训练系列产品中,装PyTorch需安装kernels。TensorFlow调用npu资源需要tfplugin+toolkit或tfplugin+nnae组合提供运行时依赖,MindSpore需要nnae或toolkit提供运行时依赖。
        • 所有Python库的安装都必须先安装Python,如TensorFlow、MindSpore、PyTorch等。
        • 其中指定“--install=mindspore”会安装下载软件包中下载好的MindSpore包,用户也可参考Mindspore官网自行安装,请注意MindSpore与驱动、固件、CANN软件的版本配套关系。
        • IEF Agent安装完成后,需要登录管理控制台-智能边缘平台,选择左侧导航栏的“边缘资源 > 边缘节点”,在边缘节点列表中查看已纳管的边缘节点状态。如果节点状态为“运行中”,表示纳管成功。
      2. 涉及安装CANN和ToolBox时,用户需签署华为企业业务最终用户许可协议(EULA)后进入安装流程,根据回显页面执行y或Y确认协议,输入其他任意字符为拒绝协议,确认接受协议后自动开始安装。
        若当前语言环境不满足要求,可以执行如下命令配置系统的默认语言环境。
        #配置为中文(简体)
        export LANG=zh_CN.UTF-8
        #配置为英文
        export LANG=en_US.UTF-8
      3. 涉及到安装驱动固件时,建议安装完成后立即重启。单机安装时重启请执行reboot命令。批量安装则执行以下命令重启所有设备。
        1. 如果Ascend Deployer工具是部署在某一台待安装设备上,需要先在“inventory_file”屏蔽本机IP地址,如下加粗内容所示,否则执行3.c.ii时可能还未发送重启命令到其他服务器,本机就已重启,导致其他服务器无法重启。如果Ascend Deployer工具是部署在通用服务器可以跳过本步骤。
          #本机ip_address ansible_ssh_user="root" # 屏蔽本机IP
        2. 重启服务器。
          ansible -i inventory_file all -m shell -a 'reboot'
        3. 其他待安装设备重启后,请在“inventory_file”中解除屏蔽的本机IP,然后执行reboot命令重启本机。

  4. 安装完成后会在当前路径下生成report目录,包含安装报告report.csv和report.json文件,报告文件中记录了服务器IP地址、驱动类型、安装的软件包及版本号、安装的节点、DL的安装结果等信息。在~/.ascend_deployer/deploy_info下会生成安装进度信息文件deployer_progress_output.json,查看安装过程和状态信息。