多机峰值带宽低,多机进行带宽测试时,测试结果峰值带宽稳定低于预期值
环境变量HCCL_BUFFSIZE用于调整两个NPU之间共享数据的缓存区大小,两个NPU之间共享数据的缓存区大小默认为200M,使用HCCL Test工具进行性能测试的场景下,往往通信数据量较大,此种场景下,可适当增大HCCL_BUFFSIZE的值,提升数据通信效率与带宽。
配置示例:
export HCCL_BUFFSIZE=2048
“-e”代表测试数据大小的结束值,若“-e”较小,则带宽会较小,建议-e后面的数据量写到4G,例如:
mpirun -n 8 ./bin/all_reduce_test -b 8K -e 4G -f 2 -d fp32 -o sum -p 8
Porfiling性能数据采集功能会导致带宽变低,请关闭此功能。
每种业务场景的性能数据采集功能开启方法不同,详细的方法可参见《性能分析工具使用指南》中的“性能分析”章节。
此种场景下,可以通过二分法找到这台机器,然后参见单机带宽低进行可能原因的排查,若单机测试均无问题可尝试检查慢机器的配置“cat /etc/hccn.conf”与其他正常服务器配置是否一样,某台机器网络配置不一致,有可能导致单机测试无问题(单机不使用外部网络),但引起多机带宽低。
执行如下命令,查看服务器统计信息:
for i in $(seq 0 15); do echo "==============> $i"; hccn_tool -i $i -stat -g |grep pfc ;done
统计信息中有很多“rx pfc”,标识交换机负载分担不均衡,产生了拥塞。
可通过如下方法尝试解决: