执行升级命令
升级前必读
- 使用MindCluster Ascend Deployer工具升级前,请确保MindCluster Ascend Deployer执行机的硬盘存储空间在16G以上。
- 执行--install命令进行升级时,请勿重复升级sys_pkg,否则会导致升级失败。
前提条件
- 已完成软件包的下载。
- 升级用户为root用户,且具有install.sh的可执行权限。
升级步骤
- 以软件包的升级用户登录待升级设备。
- 执行升级命令。
- pip安装Ascend Deployer时,在本机任意路径使用ascend-deployer命令进行升级。
1
ascend-deployer --install=<package_name_1>,<package_name_2>
- 通过下载ZIP包解压使用MindCluster Ascend Deployer工具时,需进入ascend_deployer目录,使用bash install.sh命令升级。
1
bash install.sh --install=<package_name_1>,<package_name_2>
命令示例如表1所示。
<package_name_x>可选范围参见支持安装及升级场景或通过执行bash install.sh --help查看全部可用参数。
请按照“python>npu>CANN、MindCluster(性能测试,故障诊断,集群调度)、AI框架(tensorflow、mindspore或pytorch)”的顺序进行升级,升级时resources目录下的CANN包版本需和npu配套。
表1 升级命令示例 安装类型
升级命令
NPU驱动和固件
(右侧命令任选其一执行)
1
bash install.sh --install=npu
1
bash install.sh --install=driver,firmware
CANN软件
(训练&推理&开发调试场景)
bash install.sh --install=kernels,toolkit
CANN软件
(边缘推理场景)
1
bash install.sh --install=nnrt,kernels
CANN软件
(训练&推理场景)
1
bash install.sh --install=nnae,kernels
MindCluster 集群调度
1
bash install.sh --install=ascend-device-plugin,ascend-docker-runtime,hccl-controller,noded,npu-exporter,volcano,ascend-operator,clusterd,resilience-controller
MindCluster 性能测试
1
bash install.sh --install=toolbox
MindCluster 故障诊断
1
bash install.sh --install=fault-diag
说明
- 安装上述软件包的详细约束请参见表1。
- <package_name_x>的全部可选参数详见支持安装及升级的软件包。
- pip安装Ascend Deployer时,在本机任意路径使用ascend-deployer命令进行升级。
- (可选)涉及升级CANN和MindCluster性能测试时,用户需签署华为企业业务最终用户许可协议(EULA)后进入升级流程,根据回显页面执行y或Y确认协议,输入其他任意字符为拒绝协议,确认接受协议后自动开始升级。
若当前语言环境不满足要求,可以执行如下命令配置系统的默认语言环境。
- 配置为中文
1
export LANG=zh_CN.UTF-8
- 配置为英文
1
export LANG=en_US.UTF-8
- 配置为中文
- (可选)涉及到升级驱动固件时,建议升级完成后立即重启。单机升级时重启请执行reboot命令。批量升级则执行以下命令重启所有设备。
- 如果MindCluster Ascend Deployer工具是部署在某一台待升级设备上,需要先在“inventory_file”屏蔽本机IP地址,如下加粗内容所示,否则执行5.2时可能还未发送重启命令到其他服务器,本机就已重启,导致其他服务器无法重启。如果MindCluster Ascend Deployer工具是部署在通用服务器可以跳过本步骤。
#本机ip_address ansible_ssh_user="root" # 屏蔽本机IP
- 重启服务器。
1
ansible -i inventory_file all -m shell -a 'reboot'
- 其他待升级设备重启后,请在“inventory_file”中解除屏蔽的本机IP,然后执行reboot命令重启本机。
- 如果MindCluster Ascend Deployer工具是部署在某一台待升级设备上,需要先在“inventory_file”屏蔽本机IP地址,如下加粗内容所示,否则执行5.2时可能还未发送重启命令到其他服务器,本机就已重启,导致其他服务器无法重启。如果MindCluster Ascend Deployer工具是部署在通用服务器可以跳过本步骤。
父主题: 升级昇腾软件