(可选)配置芯片故障级别
如果用户想要自定义故障级别,可以创建自定义故障码配置文件,启动Container Manager组件时,作为“-faultConfigPath”参数的值传入即可。以故障名称dmp_daemon节点状态检测异常,对应故障码80E21007为例。将当前故障的处理策略NotHandleFault修改为RestartNPU的操作示例如下。
- 登录环境,进入任意目录(以下以“/home/container-manager”目录为例)。
- 创建自定义故障码配置文件,以文件名为faultCode.json为例。
vi faultCode.json
- 按“i”进入编辑模式,将默认故障码配置中的默认故障码配置拷贝到该文件中。
- 找到故障码80E21007。
"NotHandleFaultCodes":[ "80E21007","80E38003","80F78006","80C98006","80CB8006","81318006","80A18006","80A18005","80FB8000","8C1F8609", ... ], ...
同一故障码配置在多个故障级别中,会显示设置成功,但默认按照高等级故障处理。
- 将故障码80E21007从NotHandleFaultCodes中删除,并添加到RestartNPUCodes中。
"NotHandleFaultCodes":[ "80E38003","80F78006","80C98006","80CB8006","81318006","80A18006","80A18005","80FB8000","8C1F8609", ... ], ... "RestartNPUCodes":[ "8C204E00","A8028802","A4302003","A4302004","A4302005","A4302006","A4302009","A430200A","80CF8009","80CF8008","80E21007",... ... ],
- 修改完成后,按“Esc”键,输入:wq!保存并退出。
- 确认自定义故障码配置文件的权限,确保其权限不高于640。
- 启动Container Manager。如果Container Manager服务已经安装完成,需要重启Container Manager服务使得配置生效。
systemctl daemon-reload && systemctl restart container-manager.service # 重新加载服务配置,且重启已经安装完成的Container Manager服务若日志出现“load custom fault config file from /home/container-manager/faultCode.json success”,表示自定义配置故障码操作成功。
- 故障码配置为系统配置,若用户无特殊需求,请勿随意修改,否则可能会导致系统故障处理功能出错。
- 自定义故障码配置文件被修改后,需要重启Container Manager使其生效。如果自定义的配置文件内容存在格式错误等问题,Container Manager会直接报错退出。
父主题: 故障级别配置