参数名称 |
参数说明 |
取值范围 |
缺省值 |
---|---|---|---|
MINDIO_AUTO_PATCH_MEGATRON |
是否在import torch_mindio的时候自动patch megatron框架的源代码中的CheckPoint相关函数。 自动patch的函数包括: megatron.training.training.save_checkpoint megatron.core.optimizer.distrib_optimizer.DistributedOptimizer.step |
|
false |
HSECEASY_OPENSSL_PATH |
libssl.so和libcrypto.so的存放目录。 |
路径参数。 |
${install_path}/mindio/lib |
HSECEASY_PATH |
so存放目录。 |
路径参数。 |
${install_path}/mindio/lib |
HCOM_FILE_PATH_PREFIX |
HCOM生成的文件路径的前缀,通过前缀保证文件只会在当前路径下(此路径需要已存在)创建删除。 |
路径参数。 |
${install_path} |
HCOM_OPENSSL_PATH |
HCOM依赖OpenSSL库,此路径为libssl.so和libcrypto.so的目录路径。 |
路径参数。 |
NA |
HCOM_TRACE_LEVEL |
HCOM的打点日志等级:
|
|
0 |
HCOM_QP_TRAFFIC_CLASS |
HCOM中的RDMA协议的traffic_class字段设置优先级。 |
[0, 255] |
106 |
HCOM_SHM_EXCHANGE_FD_QUEUE_SIZE |
HCOM发送fds内部队列的大小。 |
[10, 256] |
10 |
HCOM_CONNECTION_RETRY_TIMES |
HCOM建链重试的次数。 |
[0, 10] |
5 |
HCOM_CONNECTION_RETRY_INTERVAL_SEC |
HCOM建链重试的间隔时间,单位:s。 |
[0, 60] |
20 |
HCOM_SET_LOG_LEVEL |
HCOM打印日志级别:
|
|
1 |