Rec SDK环境变量的说明如表1所示。在需要使用C/C++编译时,需要设置编译环境变量,如C++语言编写的算子编译等,具体请参见表2。
环境变量名 |
含义 |
可选/必选 |
说明 |
---|---|---|---|
MXREC_LOG_LEVEL |
框架日志等级。 |
可选 |
取值范围:“INFO”、“DEBUG”或者“ERROR”,默认值为“INFO”。 |
TF_DEVICE |
是否进行合表判断。 |
可选 |
取值范围:"NPU"、"GPU"、"CPU"、“NONE”,默认值为“NONE”。
|
AclTimeout |
Acl超时时间。 |
可选 |
取值范围:[-1, int32的最大值“2147483647”],默认值为“-1”。 |
HD_CHANNEL_SIZE |
CPU处理的数据通道深度。 |
可选 |
取值范围:[2, 8192],默认值为40。 |
KEY_PROCESS_THREAD_NUM |
KEY_PROCESS线程数量。 |
可选 |
取值范围:[1, 10],默认值为6。 |
MAX_UNIQUE_THREAD_NUM |
最大UNIQUE线程数。 |
可选 |
取值范围:[1, 8],默认值为8。 |
FAST_UNIQUE |
是否自实现的优化去重编码算法。 |
可选 |
取值范围:“0”或者“1”,默认值为“0”。
|
HOT_EMB_UPDATE_STEP |
Hot Embedding更新步数。 |
可选 |
取值范围:[1, 1000],默认值为1000。 |
GLOG_stderrthreshold |
glog日志等级。 |
可选 |
取值范围:[-2, 2],默认值为0
|
USE_COMBINE_FAAE |
控制是否合表统计次数。 |
可选 |
取值范围:“0”或者“1”,默认值为“0。
|
CM_CHIEF_IP |
主节点IP。 |
可选 |
当使用去rank table方案时为必选。 |
CM_CHIEF_PORT |
主节点侦听端口,比如60000。 |
可选 |
当使用去rank table方案时为必选。 说明:
|
CM_CHIEF_DEVICE |
主节点Device ID。 |
可选 |
指定Master节点中统计Server端集群信息的Device逻辑ID。 取值范围:[0 , 环境可见Device数量-1]。当使用去rank table方案时为必选。 |
CM_WORKER_IP |
当前节点IP。 |
可选 |
当使用去rank table方案时为必选。 |
CM_WORKER_SIZE |
参与集群训练的device数量。 |
可选 |
取值范围:[0 , 512]。当使用去rank table方案时为必选。 |
RANK_TABLE_FILE |
用于配置昇腾芯片的通信集合文件。 |
可选 |
集合通信文件路径,默认为""。当使用rank table方案时为必选。 |
ASCEND_VISIBLE_DEVICES |
昇腾处理器可见的设备,来指定程序只使用其中的部分设备。 |
必选 |
使用ASCEND_VISIBLE_DEVICES环境变量指定训练中的NPU设备(用户可执行ls /dev/ | grep davinci*命令查询宿主机的NPU设备),使用设备序号指定设备,支持单个和范围指定且支持混用。例如: |
RECORD_KEY_COUNT |
控制是否记录key及key出现的数量count的开关。 |
可选 |
取值范围:“0”或者“1”,默认值为“0”。
|
LCAL_COMM_ID |
指定LCAL元信息交换主节点 |
可选 |
基于socket通信,格式为ip:port。不指定时,则默认通信主节点为当前任务最小rank id对应的进程,默认端口为10067。 |
LCCL_DETERMINISTIC |
开启LCCL确定性计算 |
可选 |
默认值为“0”,表示关闭LCCL确定性计算。 需要确定性计算时,可配置值为“1”。GatherUss算子将确保计算有序。 |
USE_SHM_SWAP |
PCIE through性能提升 |
可选 |
取值范围:“0”或者“1”,默认值为“0”。
|
HUGE_TLB_ENABLE |
大页内存 |
可选 |
取值范围:“0”或者“1”,默认值为“0”。
|