(可选)配置公共故障的级别和发送方
在制作ClusterD镜像时,会将故障级别配置文件publicFaultConfiguration.json内置在镜像中,启动ClusterD时会读取这个文件的默认配置,作为当前故障处理依据。
如果用户想要自定义故障级别,可以在主机上创建/user1/mindx-dl/clusterd/publicCustomization.json文件。
- 如果ClusterD启动时,已经存在该文件,ClusterD会优先按照已存在的文件中配置的内容,作为当前故障处理依据。
- 如果重新安装ClusterD后,已经存在该文件,ClusterD的默认publicFaultConfiguration.json将不会生效,使用已经存在的publicCustomization.json文件。若想要使用publicFaultConfiguration.json的默认配置,可以删除已存在的publicCustomization.json文件,使ClusterD读取默认的publicFaultConfiguration.json文件。
- 如果publicCustomization.json文件内容存在格式错误等问题,ClusterD会默认读取镜像中内置的publicFaultConfiguration.json文件的内容,作为当前故障处理依据。
- 登录环境,进入/user1/mindx-dl/clusterd目录。
- 执行vi publicCustomization.json命令,编辑文件。publicCustomization.json的详细说明请参见表2。
- 创建文件publicCustomization.json之后,用户需要保证该文件有ClusterD用户hwMindX的可读权限。例如,如果用户权限为root,该文件权限建议设置为644。
- 文件权限安全需要用户保证,如果权限过大,可能存在安全风险。
{ "publicFaultCode": { "NotHandleFaultCodes":[], "SubHealthFaultCodes":[], "SeparateNPUCodes":["010001008"] }, "publicFaultResource": [ "CCAE", "fd-online", "pingmesh", "Netmind" ] }
- 修改完成后,按“Esc”键,输入:wq!保存并退出。
- 几秒钟后,文件生效。查看操作是否成功。
若日志出现“load fault config from <publicCustomization.json> success”,表示手动配置故障码操作成功。
配置公共故障的发送方
下面将以新增故障发送方XXX为例,介绍公共故障码发送方的配置步骤。
- 登录环境,进入/user1/mindx-dl/clusterd目录。
- 执行vi publicCustomization.json命令,编辑文件。publicCustomization.json的详细说明请参见表2。
{ "publicFaultCode": { "NotHandleFaultCodes":[], "SubHealthFaultCodes":[], "SeparateNPUCodes":[] }, "publicFaultResource": [ "CCAE", "fd-online", "pingmesh", "Netmind", "XXX" ] }
- 修改完成后,按“Esc”键,输入:wq!保存并退出。
- 几秒钟后,文件生效。查看操作是否成功。
若日志出现“load fault config from <publicCustomization.json> success”,表示手动配置故障码操作成功。
父主题: 公共故障