昇腾社区首页
中文
注册
开发者
下载

(可选)配置芯片故障级别

如果用户想要自定义故障级别,可以创建自定义故障码配置文件,启动Container Manager组件时,作为“-faultConfigPath”参数的值传入即可。以故障名称dmp_daemon节点状态检测异常,对应故障码80E21007为例。将当前故障的处理策略NotHandleFault修改为RestartNPU的操作示例如下。

  1. 登录环境,进入任意目录(以下以“/home/container-manager”目录为例)。
  2. 创建自定义故障码配置文件,以文件名为faultCode.json为例。
    vi faultCode.json
  3. 按“i”进入编辑模式,将默认故障码配置中的默认故障码配置拷贝到该文件中。
  4. 找到故障码80E21007。
    "NotHandleFaultCodes":[
       "80E21007","80E38003","80F78006","80C98006","80CB8006","81318006","80A18006","80A18005","80FB8000","8C1F8609",
    ...
      ],
    ...

    同一故障码配置在多个故障级别中,会显示设置成功,但默认按照高等级故障处理。

  5. 将故障码80E21007从NotHandleFaultCodes中删除,并添加到RestartNPUCodes中。
    "NotHandleFaultCodes":[ 
       "80E38003","80F78006","80C98006","80CB8006","81318006","80A18006","80A18005","80FB8000","8C1F8609",
    ...
      ],
    ...
    "RestartNPUCodes":[
       "8C204E00","A8028802","A4302003","A4302004","A4302005","A4302006","A4302009","A430200A","80CF8009","80CF8008","80E21007",... 
    ...
       ],
  6. 修改完成后,按“Esc”键,输入:wq!保存并退出。
  7. 确认自定义故障码配置文件的权限,确保其权限不高于640。
  8. 启动Container Manager。如果Container Manager服务已经安装完成,需要重启Container Manager服务使得配置生效。
    systemctl daemon-reload && systemctl restart container-manager.service # 重新加载服务配置,且重启已经安装完成的Container Manager服务

    若日志出现“load custom fault config file from /home/container-manager/faultCode.json success”,表示自定义配置故障码操作成功。

  • 故障码配置为系统配置,若用户无特殊需求,请勿随意修改,否则可能会导致系统故障处理功能出错。
  • 自定义故障码配置文件被修改后,需要重启Container Manager使其生效。如果自定义的配置文件内容存在格式错误等问题,Container Manager会直接报错退出。