昇腾社区首页
中文
注册

环境变量

加粗显示的环境变量为常用环境变量。

参数名称

参数说明

取值类型

缺省值

TTP_OT

Torch框架强制退出进程时间阈值,在阈值内完成临终CheckPoint保存则提前退出,单位:s。

整型

720

TTP_ADDR

主节点IP地址。

IPv4地址

$(hostname -I | awk '{print $1}')

TTP_LOG_PATH

MindIO TFT日志存放目录路径。

相对路径

logs/ttp_log.log

TTP_LOG_LEVEL

MindIO TFT日志等级。

  • CRITICAL
  • FATAL
  • ERROR
  • INFO
  • WARN
  • DEBUG
  • NOTSET

INFO

TTP_MASTER_ADDR

MindIO TFT主节点IP地址。

IPv4地址

127.0.0.1

TTP_MASTER_PORT

MindIO TFT主节点端口号。

整型

8000

MASTER_ADDR

训练主节点IP地址。

IPv4地址

-

MASTER_PORT

训练主节点通信端口。

整型

-

CONTROLLER_ADDR

Controller进程IP地址。

IPv4地址

127.0.0.1

PROCESSOR_ADDR

Processor向Controller发起建链请求的目标IP地址。

IPv4地址

127.0.0.1

TTP_NORMAL_ACTION_TIME_LIMIT

Controller与Processor消息交互超时时间阈值,单位:s。

整型

30

TTP_ACCLINK_CHECK_PERIOD_HOURS

开启TLS后,MindIO TTP检查证书有效性的周期,单位:h,取值范围[24, 720]。

整型

168

TTP_ACCLINK_CERT_CHECK_AHEAD_DAYS

开启TLS后,MindIO TTP检查证书过期日提前告警的时长,单位:天,取值范围[7, 180],并且需满足TTP_ACCLINK_CERT_CHECK_AHEAD_DAYS * 24 ≥ TTP_ACCLINK_CHECK_PERIOD_HOURS。

整型

30

TTP_SAVE_CKPT_TIME_LIMIT

Processor执行回调函数保存CheckPoint时间阈值,单位:s。

阈值内保存未完成,则会被认为超时,可自行修改增加阈值。

整型

180

MINDIO_FOR_MINDSPORE

表示是否启用MINDSOPRE开关。

布尔类型

  • True:启用MINDSOPRE
  • False:关闭MINDSOPRE

False

HSECEASY_OPENSSL_PATH

so存放目录。

-

${openssl}/lib

HSECEASY_PATH

so存放目录。

-

${install_path}/mindio/lib

HCOM_FILE_PATH_PREFIX

HCOM生成的文件路径的前缀,通过前缀保证文件只会在当前路径下(此路径需要已存在)创建删除。

-

-

HCOM_OPENSSL_PATH

HCOM依赖OpenSSL库,此路径为libssl.so和libcrypt.so的目录路径。

-

-

HCOM_TRACE_LEVEL

HCOM的打点日志等级:

  • 0:不开打点。
  • 1:打开高优先级打点。
  • 2:打开中优先级打点。
  • 3:打开低优先级打点。

0~3

0

HCOM_QP_TRAFFIC_CLASS

HCOM中的RDMA协议的traffic_class字段设置优先级。

0~255

106

HCOM_SHM_EXCHANGE_FD_QUEUE_SIZE

HCOM发送fds内部队列的大小。

10~256

10

HCOM_CONNECTION_RETRY_TIMES

HCOM建链重试的次数。

0~10

5

HCOM_CONNECTION_RETRY_INTERVAL_SEC

HCOM建链重试的间隔时间,单位:s。

0~60

20