异常补救

配置项

说明

使用场景

hccl_timeout

集合通信超时时间,单位为s,默认值为1800s,取值范围为:[68,17340]。

当默认时长不满足需求时(例如出现通信失败的错误),可通过此配置项延长超时时间。

注意:系统实际设置的超时时间 = 此配置项的取值 // 68 * 68,单位s;如果配置项的取值小于68,则默认按照68s进行处理。

例如,假设hccl_timeout设置为600,则系统实际设置的超时时间为 600//68*68 = 8*68 = 544s。

配置示例:

custom_op.parameter_map["hccl_timeout"].i = 1800

训练

op_wait_timeout

算子等待超时时间,单位为s,默认值为120s。

当默认时长不满足需求时,可通过此配置项延长超时时间。

配置示例:

custom_op.parameter_map["op_wait_timeout"].i = 120

训练

op_execute_timeout

算子执行超时时间,单位为s。

配置示例:

custom_op.parameter_map["op_execute_timeout"].i = 90

训练