昇腾社区首页
中文
注册

执行安装命令

安装前必读

  • 使用MindCluster Ascend Deployer工具安装前,请确保MindCluster Ascend Deployer执行机的硬盘存储空间在16G以上。
  • 部分组件存在运行时依赖,如PyTorch需要toolkit或nnae提供运行时依赖;在Atlas A2 训练系列产品中,PyTorch需要安装kernels;MindCluster Ascend Deployer6.0.0之前的版本,TensorFlow调用npu资源需要tfplugin+toolkit或tfplugin+nnae组合提供运行时依赖,MindCluster Ascend Deployer6.0.0及之后的版本,TensorFlow调用npu资源需要toolkit或nnae提供运行时依赖;MindSpore需要nnae或toolkit提供运行时依赖。

前提条件

安装步骤

  1. 以软件包的安装用户登录待安装设备。
  2. 执行安装命令。
    • pip安装MindCluster Ascend Deployer时,在本机任意路径使用ascend-deployer命令进行安装。
      ascend-deployer --install=<package_name_1>,<package_name_2>     
    • 通过下载ZIP包解压使用MindCluster Ascend Deployer工具时,需进入ascend_deployer目录,使用bash install.sh命令安装。
      bash install.sh --install=<package_name_1>,<package_name_2>                

    命令示例如表1所示

    <package_name_x>可选范围参见支持安装及升级场景或通过执行bash install.sh --help查看全部可用参数。

    请按照“sys_pkg>python>npu>CANN、MindCluster性能测试,故障诊断,集群调度)、AI框架(tensorflow、mindspore或pytorch)”的顺序进行安装,安装时resources目录下的CANN包版本需和npu配套。

    表1 安装命令示例

    安装类型

    安装命令

    系统环境初始化

    (安装sys_pkg)

    1
    bash install.sh --install=sys_pkg                         #执行--install命令时,请勿重复安装sys_pkg。
    

    系统环境初始化

    (安装python)

    1
    bash install.sh --install=python
    

    NPU固件与驱动

    (右侧命令任选其一执行)

    1
    bash install.sh --install=npu
    
    1
    bash install.sh --install=driver,firmware
    

    CANN软件

    (训练&推理&开发调试场景)

    1
    bash install.sh --install=kernels,toolkit
    

    CANN软件

    (边缘推理场景)

    1
    bash install.sh --install=nnrt,kernels
    

    CANN软件

    (训练&推理场景)

    1
    bash install.sh --install=nnae,kernels
    

    AI框架

    1
    bash install.sh --install=tensorflow
    
    1
    bash install.sh --install=pytorch
    
    1
    bash install.sh --install=mindspore
    

    MindCluster集群调度

    1
    bash install.sh --install=ascend-device-plugin,ascend-docker-runtime,hccl-controller,noded,npu-exporter,volcano,ascend-operator,clusterd,resilience-controller
    

    MindCluster集群调度

    (MindIO)

    1
    bash install.sh --install=mindio
    

    MindCluster性能测试

    1
    bash install.sh --install=toolbox
    

    MindCluster故障诊断

    1
    bash install.sh --install=fault-diag
    

    说明

  3. (可选)涉及安装CANN和ToolBox时,用户需签署华为企业业务最终用户许可协议(EULA)后进入安装流程,根据回显页面执行y或Y确认协议,输入其他任意字符为拒绝协议,确认接受协议后自动开始安装。

    若当前语言环境不满足要求,可以执行如下命令配置系统的默认语言环境。

    • 配置为中文
      1
      export LANG=zh_CN.UTF-8
      
    • 配置为英文
      1
      export LANG=en_US.UTF-8
      
  4. (可选)涉及到安装驱动固件时,建议安装完成后立即重启。
    单机安装时重启请执行reboot命令。批量安装则执行以下命令重启所有设备。
    1. 如果MindCluster Ascend Deployer工具是部署在某一台待安装设备上,需要先在“inventory_file”屏蔽本机IP地址,如下加粗内容所示,否则执行4.b时可能还未发送重启命令到其他服务器,本机就已重启,导致其他服务器无法重启。如果MindCluster Ascend Deployer工具是部署在通用服务器可以跳过本步骤。
      #本机ip_address ansible_ssh_user="root" # 屏蔽本机IP
    2. 重启服务器。
      1
      ansible -i inventory_file all -m shell -a 'reboot'
      
    3. 其他待安装设备重启后,请在“inventory_file”中解除屏蔽的本机IP,然后执行reboot命令重启本机。

查看安装报告及状态信息

安装完成后会在当前路径下生成report目录,包含安装报告report.csv和report.json文件。报告文件中以服务器为维度记录了服务器IP地址、状态等结果信息。

~/.ascend_deployer/deploy_info下会生成安装进度信息文件deployer_progress_output.json,查看安装过程和状态信息。

后续操作

检查安装结果