昇腾社区首页
中文
注册

(可选)配置公共故障的级别和发送方

在制作ClusterD镜像时,会将故障级别配置文件publicFaultConfiguration.json内置在镜像中,启动ClusterD时会读取这个文件的默认配置,作为当前故障处理依据。

如果用户想要自定义故障级别,可以在主机上创建/user1/mindx-dl/clusterd/publicCustomization.json文件。

  • 如果ClusterD启动时,已经存在该文件,ClusterD会优先按照已存在的文件中配置的内容,作为当前故障处理依据。
  • 如果重新安装ClusterD后,已经存在该文件,ClusterD的默认publicFaultConfiguration.json将不会生效,使用已经存在的publicCustomization.json文件。若想要使用publicFaultConfiguration.json的默认配置,可以删除已存在的publicCustomization.json文件,使ClusterD读取默认的publicFaultConfiguration.json文件。
  • 如果publicCustomization.json文件内容存在格式错误等问题,ClusterD会默认读取镜像中内置的publicFaultConfiguration.json文件的内容,作为当前故障处理依据。

配置公共故障码的故障级别

配置公共故障码的故障级别分为以下2种场景。

  • 对已有故障码的故障级别进行调整。
  • 新增故障码及其故障级别。

    下面将以故障码010001008为例,介绍公共故障码故障级别的配置步骤。

  1. 登录环境,进入/user1/mindx-dl/clusterd目录。
  2. 执行vi publicCustomization.json命令,编辑文件。publicCustomization.json的详细说明请参见表2
    • 创建文件publicCustomization.json之后,用户需要保证该文件有ClusterD用户hwMindX的可读权限。例如,如果用户权限为root,该文件权限建议设置为644。
    • 文件权限安全需要用户保证,如果权限过大,可能存在安全风险。
    {
      "publicFaultCode": {
        "NotHandleFaultCodes":[],
        "SubHealthFaultCodes":[],
        "SeparateNPUCodes":["010001008"]
      },
      "publicFaultResource": [
        "CCAE", "fd-online", "pingmesh", "Netmind"
      ]
    }
  3. 修改完成后,按“Esc”键,输入:wq!保存并退出。
  4. 几秒钟后,文件生效。查看操作是否成功。

    若日志出现“load fault config from <publicCustomization.json> success”,表示手动配置故障码操作成功。

配置公共故障的发送方

下面将以新增故障发送方XXX为例,介绍公共故障码发送方的配置步骤。

  1. 登录环境,进入/user1/mindx-dl/clusterd目录。
  2. 执行vi publicCustomization.json命令,编辑文件。publicCustomization.json的详细说明请参见表2
    {
      "publicFaultCode": {
        "NotHandleFaultCodes":[],
        "SubHealthFaultCodes":[],
        "SeparateNPUCodes":[]
      },
      "publicFaultResource": [
        "CCAE", "fd-online", "pingmesh", "Netmind", "XXX"
      ]
    }
  3. 修改完成后,按“Esc”键,输入:wq!保存并退出。
  4. 几秒钟后,文件生效。查看操作是否成功。

    若日志出现“load fault config from <publicCustomization.json> success”,表示手动配置故障码操作成功。