配置项 |
说明 |
使用场景 |
---|---|---|
hccl_timeout |
集合通信超时时间,单位为s,默认值为1800s,取值范围为:[68,17340]。 当默认时长不满足需求时(例如出现通信失败的错误),可通过此配置项延长超时时间。 注意:系统实际设置的超时时间 = 此配置项的取值 // 68 * 68,单位s;如果配置项的取值小于68,则默认按照68s进行处理。 例如,假设hccl_timeout设置为600,则系统实际设置的超时时间为 600//68*68 = 8*68 = 544s。 配置示例: custom_op.parameter_map["hccl_timeout"].i = 1800 |
训练 |
op_wait_timeout |
算子等待超时时间,单位为s,默认值为120s。 当默认时长不满足需求时,可通过此配置项延长超时时间。 配置示例: custom_op.parameter_map["op_wait_timeout"].i = 120 |
训练 |
op_execute_timeout |
算子执行超时时间,单位为s。 配置示例: custom_op.parameter_map["op_execute_timeout"].i = 90 |
训练 |