昇腾社区首页
中文
注册

配置文件说明

断点续训针对关联故障(特殊故障会伴生其他相关联的故障场景),需要忽略特殊故障诱发的伴生故障。ClusterD组件会获取到特殊故障,根据relationFaultCustomization.jsonfaultDuration.json文件中配置的关联故障策略对故障任务进行特殊处理。

relationFaultCustomization.json、faultDuration.json为系统配置文件,若用户无特殊需求,请勿随意修改。

表1 relationFaultCustomization文件说明

参数

说明

取值

TriggerFault

伴生故障码,当前支持faultCode.json和SwitchFaultCode.json配置的故障码。

字符串

RelationFaults

需要被关联的故障列表,可以是一个或多个故障码。当前支持faultCode.json和SwitchFaultCode.json配置的故障码。

字符串列表

FaultStrategy

关联故障匹配成功时对应任务的处理策略。

  • Separate:任务隔离
  • SubHealth:任务亚健康

字符串

注:

当设备发生配置的RelationFaults时,ClusterD会将对应的故障加入待处理的故障码队列。在配置的TimeOutInterval时间内,如果发生了TriggerFault对应的故障,会按照用户配置的FaultStrategy策略对任务进行处理。如果超过配置的TimeOutInterval时间,总线设备故障类型,按照任务亚健康进行处理,芯片故障或者参数面网络故障,会忽略该故障。

表2 faultDuration.json文件说明

参数

说明

取值

FaultCode

故障码,当前支持faultCode.json和SwitchFaultCode.json配置的故障码。

字符串

FaultType

故障类型:

  • faultDevice:芯片故障或者参数面网络故障
  • faultSwitch:总线设备故障

字符串

TimeOutInterval

故障码最长被关联时间。单位为秒。

整数