环境变量

参数名称

参数说明

取值范围

缺省值

MINDIO_AUTO_PATCH_MEGATRON

是否在import torch_mindio的时候自动patch megatron框架的源代码中的CheckPoint相关函数。

自动patch的函数包括:

megatron.training.training.save_checkpoint
megatron.core.optimizer.distrib_optimizer.DistributedOptimizer.step
  • true或者1:开启
  • 其他值:关闭

false

HSECEASY_OPENSSL_PATH

libssl.so和libcrypto.so的存放目录。

路径参数。

${install_path}/mindio/lib

HSECEASY_PATH

so存放目录。

路径参数。

${install_path}/mindio/lib

HCOM_FILE_PATH_PREFIX

HCOM生成的文件路径的前缀,通过前缀保证文件只会在当前路径下(此路径需要已存在)创建删除。

路径参数。

${install_path}

HCOM_OPENSSL_PATH

HCOM依赖OpenSSL库,此路径为libssl.so和libcrypto.so的目录路径。

路径参数。

NA

HCOM_TRACE_LEVEL

HCOM的打点日志等级:

  • 0:不开打点。
  • 1:打开高优先级打点。
  • 2:打开中优先级打点。
  • 3:打开低优先级打点。
  • 0
  • 1
  • 2
  • 3

0

HCOM_QP_TRAFFIC_CLASS

HCOM中的RDMA协议的traffic_class字段设置优先级。

[0, 255]

106

HCOM_SHM_EXCHANGE_FD_QUEUE_SIZE

HCOM发送fds内部队列的大小。

[10, 256]

10

HCOM_CONNECTION_RETRY_TIMES

HCOM建链重试的次数。

[0, 10]

5

HCOM_CONNECTION_RETRY_INTERVAL_SEC

HCOM建链重试的间隔时间,单位:s。

[0, 60]

20

HCOM_SET_LOG_LEVEL

HCOM打印日志级别:

  • 0:打印debug、info、warn和error日志。
  • 1:打印info、warn和error日志。
  • 2:打印warn和error日志。
  • 3:打印error日志。
  • 0
  • 1
  • 2
  • 3

1