环境变量

加粗显示的环境变量为常用环境变量。
参数名称 |
参数说明 |
取值类型 |
缺省值 |
---|---|---|---|
TTP_OT |
Torch框架强制退出进程时间阈值,在阈值内完成临终CheckPoint保存则提前退出,单位:s。 |
整型 |
720 |
TTP_ADDR |
主节点IP地址。 |
IPv4地址 |
$(hostname -I | awk '{print $1}') |
TTP_LOG_PATH |
MindIO TFT日志存放目录路径。 |
相对路径 |
logs/ttp_log.log |
TTP_LOG_LEVEL |
MindIO TFT日志等级。 |
|
INFO |
TTP_MASTER_ADDR |
MindIO TFT主节点IP地址。 |
IPv4地址 |
127.0.0.1 |
TTP_MASTER_PORT |
MindIO TFT主节点端口号。 |
整型 |
8000 |
MASTER_ADDR |
训练主节点IP地址。 |
IPv4地址 |
- |
MASTER_PORT |
训练主节点通信端口。 |
整型 |
- |
CONTROLLER_ADDR |
Controller进程IP地址。 |
IPv4地址 |
127.0.0.1 |
PROCESSOR_ADDR |
Processor向Controller发起建链请求的目标IP地址。 |
IPv4地址 |
127.0.0.1 |
TTP_NORMAL_ACTION_TIME_LIMIT |
Controller与Processor消息交互超时时间阈值,单位:s。 |
整型 |
30 |
TTP_ACCLINK_CHECK_PERIOD_HOURS |
开启TLS后,MindIO TTP检查证书有效性的周期,单位:h,取值范围[24, 720]。 |
整型 |
168 |
TTP_ACCLINK_CERT_CHECK_AHEAD_DAYS |
开启TLS后,MindIO TTP检查证书过期日提前告警的时长,单位:天,取值范围[7, 180],并且需满足TTP_ACCLINK_CERT_CHECK_AHEAD_DAYS * 24 ≥ TTP_ACCLINK_CHECK_PERIOD_HOURS。 |
整型 |
30 |
TTP_SAVE_CKPT_TIME_LIMIT |
Processor执行回调函数保存CheckPoint时间阈值,单位:s。 阈值内保存未完成,则会被认为超时,可自行修改增加阈值。 |
整型 |
180 |
MINDIO_FOR_MINDSPORE |
表示是否启用MINDSOPRE开关。 |
布尔类型
|
False |
HSECEASY_OPENSSL_PATH |
so存放目录。 |
- |
${openssl}/lib |
HSECEASY_PATH |
so存放目录。 |
- |
${install_path}/mindio/lib |
HCOM_FILE_PATH_PREFIX |
HCOM生成的文件路径的前缀,通过前缀保证文件只会在当前路径下(此路径需要已存在)创建删除。 |
- |
- |
HCOM_OPENSSL_PATH |
HCOM依赖OpenSSL库,此路径为libssl.so和libcrypt.so的目录路径。 |
- |
- |
HCOM_TRACE_LEVEL |
HCOM的打点日志等级:
|
0~3 |
0 |
HCOM_QP_TRAFFIC_CLASS |
HCOM中的RDMA协议的traffic_class字段设置优先级。 |
0~255 |
106 |
HCOM_SHM_EXCHANGE_FD_QUEUE_SIZE |
HCOM发送fds内部队列的大小。 |
10~256 |
10 |
HCOM_CONNECTION_RETRY_TIMES |
HCOM建链重试的次数。 |
0~10 |
5 |
HCOM_CONNECTION_RETRY_INTERVAL_SEC |
HCOM建链重试的间隔时间,单位:s。 |
0~60 |
20 |