昇腾社区首页
中文
注册

HCCL_EVENT_TIMEOUT

功能描述

当使用HCCL作为通信后端时,通过此环境变量可设置等待Event完成的超时时间。

一个进程内,调用acl.init接口初始化pyACL后,调用acl.rt.set_op_wait_timeout接口设置超时时间,本进程内后续调用acl.rt.stream_wait_event接口下发的任务支持在所设置的超时时间内等待,若等待的时间超过所设置的超时时间,则pyACL会返回报错。

单位为s,取值范围为[0, 2147483647],默认值为1868,当配置为0时代表永不超时。

  • acl.init接口详情具体请参见《CANN 应用开发接口》中“函数:init”章节
  • acl.rt.set_op_wait_timeout接口详情具体请参见《CANN 应用开发接口》中“函数:set_op_wait_timeout”章节
  • acl.rt.stream_wait_event接口详情具体请参见《CANN 应用开发接口》中“函数:stream_wait_event”章节

配置示例

export HCCL_EVENT_TIMEOUT=1800

使用约束

此环境变量仅适用于基于PyTorch框架构建的神经网络,且使用HCCL作为通信后端的场景。

该环境变量被配置时,配置值需要大于HCCL_EXEC_TIMEOUT的配置值,HCCL_EXEC_TIMEOUT具体可参考《CANN 环境变量参考》中的“HCCL_EXEC_TIMEOUT”章节

支持的型号

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品