环境变量
 加粗显示的环境变量为常用环境变量。
参数名称  | 
参数说明  | 
取值范围  | 
缺省值  | 
|---|---|---|---|
TTP_OT  | 
Torch框架强制退出进程时间阈值,在阈值内完成临终等待CheckPoint的保存时间,到时未保存完毕则强制退出进程,单位:s。  | 
[180, 1900]  | 
720  | 
TTP_ADDR  | 
主节点IP地址或域名。  | 
IPv4地址或域名  | 
127.0.0.1  | 
TTP_LOG_PATH  | 
MindIO TFT日志路径。 禁止配置软链接,日志扩展名为*.log,建议日志名中包含日期时间,避免多次训练记录在同一个日志中,造成循环覆写。 推荐在训练启动脚本中按如下方式配置日志路径: date_time=$(date +%Y-%m-%d-%H_%M_%S)
export TTP_LOG_PATH=logs/ttp_log_${date_time}.log
 | 
文件路径  | 
logs/ttp_log.log  | 
TTP_LOG_LEVEL  | 
MindIO TFT日志等级。 
  | 
  | 
INFO  | 
TTP_LOG_MODE  | 
MindIO TFT日志模式。 
  | 
  | 
PER_PROC  | 
MASTER_ADDR  | 
训练主节点IP地址或域名。  | 
IPv4地址或域名  | 
-  | 
MASTER_PORT  | 
训练主节点通信端口,端口可配。  | 
[1024, 65535]  | 
-  | 
TTP_RETRY_TIMES  | 
Processor TCP(Transmission Control Protocol)建链尝试次数。  | 
[1, 300]  | 
10  | 
MINDIO_WAIT_MINDX_TIME  | 
Controller等待MindCluster响应的最大时间,单位:s。  | 
[1, 3600]  | 
30  | 
CONTROLLER_ADDR  | 
Controller进程IP地址或域名。  | 
IPv4地址或域名  | 
127.0.0.1  | 
PROCESSOR_ADDR  | 
Processor向Controller发起建链请求的目标IP地址或域名。  | 
IPv4地址或域名  | 
127.0.0.1  | 
TTP_ACCLINK_CHECK_PERIOD_HOURS  | 
开启TLS认证后,MindIO TFT检查证书有效性的周期,单位:h。  | 
[24, 720]  | 
168  | 
TTP_ACCLINK_CERT_CHECK_AHEAD_DAYS  | 
开启TLS认证后,MindIO TFT检查证书过期日提前告警的时长,单位:天,需满足证书过期提前告警时长不小于巡检周期,保证及时发现证书过期风险并告警。  | 
[7, 180],且需满足TTP_ACCLINK_CERT_CHECK_AHEAD_DAYS * 24 ≥ TTP_ACCLINK_CHECK_PERIOD_HOURS  | 
30  | 
TTP_NORMAL_ACTION_TIME_LIMIT  | 
故障恢复流程中,执行rebuild/repair/rollback回调执行的超时时间,单位:s。  | 
[30, 1900]  | 
180  | 
TTP_SAVE_CKPT_TIME_LIMIT  | 
Processor执行回调函数保存CheckPoint的时间阈值,单位:s。 阈值内保存未完成,则会被认为超时,可自行修改增加阈值。  | 
[30, 1900]  | 
180  | 
TTP_WAIT_TIMEOUT  | 
MindIO TFT退出等待超时时间,单位:s。  | 
[150, 1900]  | 
300  | 
MINDIO_FOR_MINDSPORE  | 
表示是否启用MindSpore开关,传入True(不区分大小写)或1时,开启MindSpore开关,其他值关闭MindSpore开关。  | 
  | 
False  | 
MINDX_TASK_ID  | 
MindIO ARF特性使用,MindCluster任务ID,由ClusterD配置,无需用户干预。  | 
字符串  | 
-  | 
HSECEASY_PATH  | 
TLS加密功能使用,HSECEASY组件的路径,内容为“{证书配置根目录}/lib”。该环境变量仅在TLS开启场景由MindIO TFT配置,无需用户干预。  | 
文件目录  | 
{证书配置根目录}/lib  | 
TORCH_DIST_INIT_BARRIER  | 
PyTorch环境变量,创建通信组的同步开关,MindIO ARF特性重建通信组时使用。  | 
  | 
-  | 
TORCHELASTIC_USE_AGENT_STORE  | 
PyTorch环境变量,控制创建TCP Store Server还是Client,MindIO TFT在临终CheckPoint保存且Torch Agent TCP Store Server连接失败场景下使用。  | 
  | 
-  | 
TTP_STOP_CLEAN_BEFORE_DUMP  | 
MindIO TFT特性使用,控制MindIO TTP在保存临终CheckPoint前是否做stop&clean操作。  | 
  | 
0  |