昇腾社区首页
中文
注册

(可选)配置芯片故障级别

在制作MindCluster Ascend Device Plugin镜像时,会将故障级别配置文件faultCode.json内置在镜像中,启动MindCluster Ascend Device Plugin时会读取这两个文件的默认配置,作为当前故障处理依据。

如果用户想要自定义故障级别或者优雅容错相关配置,可以在集群中创建ConfigMap文件(mindx-dl-fault-config)。

  • 如果MindCluster Ascend Device Plugin启动时,集群中已经存在mindx-dl-fault-config文件,MindCluster Ascend Device Plugin会优先按照已存在的mindx-dl-fault-config中配置的内容,作为当前故障处理依据。
  • 如果重新安装MindCluster Ascend Device Plugin后,集群中已经存在mindx-dl-fault-config文件,MindCluster Ascend Device Plugin的默认faultCode.json将不会生效,使用集群中已经存在mindx-dl-fault-config文件。若想要使用faultCode.json或faultCustomization.json的默认配置,可以删除mindx-dl-fault-config文件,使MindCluster Ascend Device Plugin读取默认faultCode.json或faultCustomization.json文件。
  • 如果ConfigMap文件内容存在格式错误等问题,MindCluster Ascend Device Plugin会默认读取镜像中内置的ConfigMap文件的内容,作为当前故障处理依据。

操作步骤

以故障名称dmp_daemon心跳检测异常,对应故障码8C0A4E00为例。将当前故障的处理级别L1(无需处理)修改为L5级别(隔离设备,进行任务重调度)的操作示例如下。

  1. 登录环境,进入MindCluster Ascend Device Plugin解压目录。
  2. 执行以下命令,创建动态配置故障码所需ConfigMap文件(mindx-dl-fault-config)。
    kubectl create cm mindx-dl-fault-config -n kube-system --from-literal="PollInterval=300" --from-file=./faultCode.json
    回显示例如下。
    configmap/mindx-dl-fault-config created
    表1 参数说明

    参数名

    是否必选

    说明

    mindx-dl-fault-config

    动态配置故障码所需的ConfigMap文件名称。

    kube-system

    mindx-dl-fault-config所在命令空间。

    PollInterval

    不指定该参数则默认取值为300s。用于指定查询mindx-dl-fault-config文件是否更新的周期时间,单位为秒,取值范围为30~3600。PollInterval的修改将在下一个周期生效。

    faultCode.json

    用于保存故障码,必须与faultCode.json文件名称保持一致。

  3. 执行以下命令,编辑mindx-dl-fault-config文件。
    kubectl edit cm -n kube-system mindx-dl-fault-config
  4. 在mindx-dl-fault-config文件中,找到故障码8C0A4E00。
    "NotHandleFaultCodes":[
        "8C0A4E00","80E20207","80E21007","80E38003","80F78006","80C98006","80CB8006","81318006","80A18006","80A18005",
    ...
      ],
    ...
  5. 将故障码8C0A4E00在L1(NotHandleFaultCodes)中删除,并添加到L5(RestartNPUCodes)中。
    "NotHandleFaultCodes":[ 
        "80E20207","80E21007","80E38003","80F78006","80C98006","80CB8006","81318006","80A18006","80A18005",
    ...
      ],
    ...
    "RestartNPUCodes":[
        "8C03A000","8C1FA006","8C2FA001","40F84E00","80E24E00","80E21E01","80E38008","80E3A202","80E3A203","80E39200","8C0A4E00", ... 
    ...
       ],
  6. 修改完成后,按“Esc”键,输入:wq!保存并退出。
  7. 等mindx-dl-fault-config文件更新生效(PollInterval取值,不指定则为300s)后,依次执行以下命令,查询MindCluster Ascend Device Plugin组件日志。
    cd /var/log/mindx-dl/devicePlugin
    vi devicePlugin.log
    • 若日志出现“handling 'mindx-dl-fault-config' configmap change succeed”,表示动态配置故障码操作成功。
    • 若日志出现“handling 'mindx-dl-fault-config' configmap change failed”,表示配置失败,用户可根据MindCluster Ascend Device Plugin日志提示进一步定位失败原因。