下载
中文
注册
驱动升级或回退过程中出现版本校验不匹配

驱动升级或回退过程中出现版本校验不匹配

2025/04/10

39

暂无评分
我要评分

问题信息

问题来源产品大类产品子类关键字
现网安装部署驱动固件版本校验、不匹配

问题现象描述

Atlas 200T A2 Box16 异构子框、Atlas 800T A2 训练服务器、Atlas 800I A2 推理服务器、Atlas 900 A2 PoD 集群基础单元的驱动升级或回退时,出现以下任意报错。

  1. 硬件故障报错
    [ERROR]Required driver version crc error.
    [ERROR]Driver upgrade fail, details in /var/log/ascend_seclog/ascend_install.log
  2. 版本不匹配拦截报错(1)
    [ERROR]Version check does not match, please use a newer version.
    [ERROR]Driver upgrade fail, details in /var/log/ascend_seclog/ascend_install.log
  3. 版本不匹配拦截报错(2)
    [ERROR]Version check does not match, please use version xxx or later.
    [ERROR]Driver upgrade fail, details in /var/log/ascend_seclog/ascend_install.log

原因分析

驱动版本与当前环境不适配或硬件故障。

解决措施

解决方案1

  • 报错1,请联系华为技术支持处理。
  • 报错2,请升级较新版本的驱动软件包或联系华为技术支持工程师确认匹配的兼容性版本。
  • 报错3,请按照以下步骤处理。
    1. 安装或升级驱动至报错信息中提示的版本。
    2. 执行reboot命令重启Host系统。
    3. 执行npu-smi info命令查询是否丢卡。
      若出现如下回显信息,则表示未丢卡,请执行4;否则,请执行解决方案2。
      +-------------------------------------------------------------------------------------------+
      | npu-smi x.x.x                          Version: x.x.x                                   |
      +----------------------+---------------+----------------------------------------------------+
      | NPU   Name           | Health        | Power(W)    Temp(C)           Hugepages-Usage(page)|
      | Chip                 | Bus-Id        | AICore(%)   Memory-Usage(MB)  HBM-Usage(MB)        |
      +======================+===============+====================================================+
      | 2     xxx            | OK            | 83.9        75                0    / 0             |
      | 0                    | 0000:01:00.0  | 0           0 / 0            4096  / 65536         |
      +======================+===============+====================================================+
      +----------------------+---------------+----------------------------------------------------+
      | NPU     Chip         | Process id    | Process name             | Process memory(MB)      |
      +======================+===============+====================================================+
      | 2       0            | 115133        | hlt_host_devmm_          | 72                      |
      | 2       0            | 115131        | hlt_host_devmm_          | 72                      |
      | 2       0            | 115134        | hlt_host_devmm_          | 72                      |
      | 2       0            | 115132        | hlt_host_devmm_          | 72                      |
      +======================+===============+====================================================+
    4. 升级与驱动配套的固件版本。
    5. 执行reboot命令重启Host系统。
解决方案2
  1. 登录iBMC将设备下电,通过带外方式升级与报错提示的驱动版本配套的固件包。
    • 对于Atlas 900 A2 PoD 集群基础单元,通过iBMC升级NPU固件内容具体请参见Atlas 900 A2 PoD 集群基础单元 升级指导书升级NPU板固件和驱动 > 升级NPU固件
    • 对于Atlas 800T A2 训练服务器,通过iBMC升级NPU固件内容具体请参见Atlas 800T A2 训练服务器 升级指导书升级NPU板固件和驱动 > 升级NPU固件
    • 对于Atlas 800I A2 推理服务器,通过iBMC升级NPU固件内容具体请参见Atlas 800I A2 推理服务器 升级指导书升级NPU板固件和驱动 > 升级NPU固件
    • 对于Atlas 200T A2 Box16 异构子框,通过iBMC升级NPU固件操作请参见对应整机服务器的文档。
  2. 登录iBMC将设备上电,升级驱动至报错提示的版本。
放大

若执行解决方案1和解决方案2后,使用npu-smi info命令查询,仍显示丢卡状态,请联系华为技术支持。

本页内容