参数名 |
描述 |
---|---|
hccl_timeout |
集合通信超时时间,单位为s,默认值1800s,取值范围为:[68,17340]。 当默认时长不满足需求时(例如出现通信失败的错误),可通过此配置项延长超时时间。 注意:系统实际设置的超时时间 = 此配置项的取值 // 68 * 68,单位s;如果配置项的取值小于68,则默认按照68s进行处理。 例如,假设hccl_timeout设置为600,则系统实际设置的超时时间为 600//68*68 = 8*68 = 544s。 配置示例: config = NPURunConfig(hccl_timeout=1800) |
op_wait_timeout |
算子等待超时时间,单位为s。 配置示例: config = NPURunConfig(op_wait_timeout=120) |
op_execute_timeout |
算子执行超时时间,单位为s。 配置示例: config = NPURunConfig(op_execute_timeout=90) |