HCCL_DFS_CONFIG
功能描述
HCCL提供了多种故障检测功能的开关设置,包括建链故障探测时间配置、集群心跳监测开关以及进程卡死检测开关。这些检测功能默认开启,能够在业务出现异常时快速定位并显示故障根节点信息,有助于问题及时排查处理。在某些特定场景下,用户也可以通过该环境变量选择性地关闭这些检测功能。
该环境变量有以下三个配置项:
- connection_fault_detction_time:建链故障探测时间。
HCCL会在建链超时时启动建链失败根节点定位能力,并将失败根节点信息传播。整个过程耗时为:“connection_fault_detction_time”参数取值 + 10s的根节点信息传播时间。
“connection_fault_detction_time”参数支持的取值:0,[20, 7200]。单位s,默认为20。
该参数配置为“0”时,代表关闭建链故障探测功能,即建链失败时无额外等待时间,建链进程立即退出。
- cluster_heartbeat:集群心跳监测开关,用于通信操作执行超时的情况下,扩散故障信息,并在运行日志中记录故障根节点信息。
该参数支持两种取值:on(开启心跳监测功能)、off(关闭心跳监测功能),默认值为on。
说明:关闭集群心跳监测开关后,通信操作执行超时的异常情况无法探测,集群故障扩散能力丢失,且根节点故障信息不会记录到运行日志中。
- stuck_detction:进程卡死检测开关。
该参数支持两种取值:on(开启进程卡死检测能力)、off(关闭进程卡死检测能力),默认值为on。
针对对通信性能非常敏感的场景,可通过此参数关闭进程卡死检测能力,但需要注意,关闭进程卡死检测能力后,不会再主动探测上报业务异常卡死故障。

本检测功能仅用于辅助定位集群故障点位置,在某些复杂场景下可能不是集群业务失败的根因位置。请基于探测事件的生成时间、被检测节点的具体报错进一步确认故障根节点位置。
配置示例
export HCCL_DFS_CONFIG="connection_fault_detction_time:30,cluster_heartbeat:on,stuck_detction:on"
使用约束
无
支持的型号
父主题: 集合通信