昇腾社区首页
中文
注册
开发者
下载

配置环境变量

Rec SDK Torch环境变量的说明如表1所示。

表1 环境变量

环境变量名

含义

可选/必选

说明

INPUT_DIST_THREADS

Rec SDK Torch使用分桶任务的线程池并发数量。

可选

整数,取值范围:[1, 12]

POST_INPUT_THREADS

Rec SDK Torch使用哈希去重任务的线程池并发数量。

可选

整数,取值范围:[1, 12]

MASTER_ADDR

用于指定分布式训练中主节点的IP地址。

可选

IPv4地址,推荐使用127.0.0.1

MASTER_PORT

用于指定分布式训练中的侦听端口。

可选

整数,取值范围:[0,65520]

LOCAL_RANK

当前进程在本机上的NPU编号。

可选

整数,取值范围:[0,world_size -1]

WORLD_SIZE

参与训练的device数量。

可选

整数,取值范围:[1,8]

ASCEND_VISIBLE_DEVICES

昇腾处理器可见的设备,来指定程序只使用其中的部分设备。

必选

使用ASCEND_VISIBLE_DEVICES环境变量指定训练中的NPU设备(用户可执行ls /dev/ | grep davinci*命令查询宿主机的NPU设备),使用设备序号指定设备,支持单个和范围指定且支持混用。例如:

  • ASCEND_VISIBLE_DEVICES=0:表示将0号设备(/dev/davinci0)挂载入容器中。
  • ASCEND_VISIBLE_DEVICES=1,3:表示将1、3号设备挂载入容器中。
  • ASCEND_VISIBLE_DEVICES=0-2:表示将0号至2号设备(包含0号和2号)挂载入容器中,效果同

    ASCEND_VISIBLE_DEVICES=0,1,2。

  • ASCEND_VISIBLE_DEVICES=0-2,4:表示将0号至2号以及4号设备挂载入容器,效果同

    ASCEND_VISIBLE_DEVICES=0,1,2,4。

ASCEND_OPP_PATH

算子库根目录。

必选

执行CANN环境变量配置脚本时设置,不建议用户修改。

GLOO_SOCKET_IFNAME

gloo通信网卡配置。

可选

使用ifconfigip a命令查看服务器网卡名称,推荐配置为lo

ENABLE_FAST_HASHMAP

是否启用快速哈希表

可选

字符串,支持"true"、"yes"、"1"表示启用,其他值表示不启用,默认为false

EMB_MEMORY_POOL_SIZE

快速哈希表的embedding内存池大小

可选

整数,默认为102400

FAST_HASHMAP_RESERVE_BUCKET_NUM

快速哈希表预留桶数量

可选

整数,默认为2097152

EMB_MEMORY_POOL_THREAD_NUM

快速哈希表embedding内存池处理线程数

可选

整数,默认为4,取值范围:[1, 1024]

EMBCACHE_SIZE_ON_DEVICE_MEM

HBM embedding缓存大小(单位:字节)

可选

整数,默认为17179869184(16GB),[1, 设备可用内存]

DO_EC_LOCAL_UNIQUE

多级缓存是否启用EC local unique

可选

字符串,支持"true"、"1"、"yes"表示启用,其他值表示不启用,默认为false

LOCAL_UNIQUE_PARALLEL_BATCH_NUM

EmbCacheTrainPipelineSparseDist中Local unique并行处理批次数

可选

整数,默认为2

ENABLE_PARALLEL_GLOBAL_UNIQUE

是否启用并行Global Unique处理

可选

字符串,1表示启用,其他值表示不启用,默认不启用

GLOG_stderrthreshold

设置多级缓存C++模块的日志级别。

可选

整数,默认为0。

取值范围:
  • -2:TRACE
  • -1:DEBUG
  • 0:INFO
  • 1:WARN
  • 2:ERROR