昇腾故障案例详情页

在模型运行时遇到报错“RuntimeError: Initialize.”

更新时间: 2023/06/06

暂无评分

问题信息

问题来源产品大类关键字
官方模型训练--

问题现象描述

  • 报错截图

  • 报错文本
    ……
    RuntimeError: Initialize:/home/***/code/pytorch/c10/npu/sys_ctrl/npu_sys_ctrl.cpp:44 NPU error, error code is 500000

原因分析

根据报错信息,初步判断为NPU设备初始化错误。进一步查找host日志报错信息如下:

根据日志信息定位报错原因为系统在拉起NPU设备时报错。

解决措施

可通过以下步骤解决该问题:

  1. 重启服务器和所有NPU device。

    • 如果问题解决,处理完毕。
    • 如果问题未解决,请执行步骤2

  2. 检查安装的driver和firmware版本是否匹配。

    • 如果不匹配,请执行步骤3
    • 如果匹配,请执行步骤4

  3. 更换正确版本的driver和firmware。

    • 如果问题解决,处理完毕。
    • 如果问题未解决,执行步骤4

  4. 联系华为工程师。

本页内容

该页面对您有帮助吗?
我要评分