CPU_AFFINITY_CONF

通过此环境变量可以控制CPU端算子任务的处理器亲和性，即设定任务绑核。该配置能够优化任务的执行效率，避免跨NUMA（非统一内存访问架构）节点的内存访问，减少任务调度开销。

可选的绑核方案如下：

参数配置格式CPU_AFFINITY_CONF=<mode>,npu<value1>:<value2>-<value3>。

参数设置：

<mode>：绑核模式，取值如下：
- 0或未设置：表示不启用绑核功能。
- 1：表示开启粗粒度绑核，默认绑核策略是根据CPU核的id均分绑核。比如单机8卡服务器，有192核，0卡对应前24核，1卡对应25~48核，依此类推。
- 2：表示开启细粒度绑核。绑核方式：将torch_npu的热点线程（前向下发、反向下发、二级流水）绑定在每片NUMA区域的前几个核上（0~5核）；非torch_npu的热点任务(如dataloader进程)，将其绑定在每片NUMA区域的剩余核上，避免与torch_npu下发任务的干扰。
npu<value1>:<value2>-<value3>：自定义NPU的绑核范围。自定义绑核当前仅支持粗粒度模式下使用，即mode=1时此项设置生效。
1. npu<value1>:<value2>-<value3>表示第“value1”张卡绑定在“value2”到“value3”的闭区间CPU核上。例如，“npu0:0-2”表示运行在编号为0的NPU上的进程会绑定到编号为0、1、2的CPU核。
2. 支持部分NPU卡自定义绑核。例如，有两张卡npu0和npu1，对于设置CPU_AFFINITY_CONF=1,npu0:0-0，绑核策略中0卡会被指定为绑定0核，而1卡则保持mode=1的绑核策略。
默认不启用绑核功能。如果需要通过绑核提升性能，推荐使用细粒度绑核。

NUMA节点对应的CPU核组可以通过命令lscpu查看。
绑核注意虚拟机与物理机的拓扑结构是否一致。默认情况下，npu 0或Device 0对应的核组是NUMA 0，但是docker等虚拟机环境可能会改变映射关系，推荐根据映射关系自定义绑核范围。
由于绑核特性触发时机较后，一般会覆盖外界的绑核，比如taskset。
绑核对于不同模型优化程度不同，对于CPU瓶颈的模型会有较大提升，对于NPU瓶颈的模型能保证性能持平。

示例一：粗粒度绑核

export CPU_AFFINITY_CONF=1

示例二：细粒度绑核

export CPU_AFFINITY_CONF=2

示例三：自定义多张NPU卡的绑核范围

export CPU_AFFINITY_CONF=1,npu0:0-1,npu1:2-5,npu3:6-6

粗粒度功能在Ascend Extension for PyTorch6.0.RC2及以上版本，只支持export CPU_AFFINITY_CONF=1开启粗粒度绑核。
细粒度功能在Ascend Extension for PyTorch6.0.0及以上版本。

父主题： 性能优化