异常补救

参数名

描述

hccl_timeout

集合通信超时时间,单位为s,默认值1800s,取值范围为:[68,17340]。

当默认时长不满足需求时(例如出现通信失败的错误),可通过此配置项延长超时时间。

注意:系统实际设置的超时时间 = 此配置项的取值 // 68 * 68,单位s;如果配置项的取值小于68,则默认按照68s进行处理。

例如,假设hccl_timeout设置为600,则系统实际设置的超时时间为 600//68*68 = 8*68 = 544s。

配置示例:

config = NPURunConfig(hccl_timeout=1800)

op_wait_timeout

算子等待超时时间,单位为s。

配置示例:

config = NPURunConfig(op_wait_timeout=120)

op_execute_timeout

算子执行超时时间,单位为s。

配置示例:

config = NPURunConfig(op_execute_timeout=90)