使用HCCL Test工具测试多机带宽时,多机带宽峰值低于预期值。
环境变量HCCL_BUFFSIZE用于调整两个NPU之间共享数据的缓存区大小,两个NPU之间共享数据的缓存区大小默认为200M,使用HCCL Test工具进行性能测试的场景下,往往通信数据量较大,此种场景下,可适当增大HCCL_BUFFSIZE的值,提升数据通信效率与带宽。
配置示例:
export HCCL_BUFFSIZE=2048
“-e”代表测试数据大小的结束值,若“-e”较小,则带宽会较小,建议增大-e参数的值,例如:
mpirun -n 8 ./bin/all_reduce_test -b 8K -e 4G -f 2 -d fp32 -o sum -p 8
Profiling性能数据采集功能会导致带宽变低,请关闭此功能。
每种业务场景的性能数据采集功能开启方法不同,详细的方法可参见《性能调优工具用户指南》中的“性能分析”章节。
此种场景下,可以通过二分法找到这台机器,然后参见单机带宽低进行可能原因的排查,若单机测试均无问题可尝试通过“cat /etc/hccn.conf”命令检查所有服务器配置是否一样,某台机器网络配置不一致,有可能会造成单机测试无问题(单机不使用外部网络),但多机带宽低的情况。
执行如下命令,查看服务器统计信息:
for i in $(seq 0 15); do echo "==============> $i"; hccn_tool -i $i -stat -g |grep pfc ;done
统计信息中有很多“rx pfc”,标识交换机负载分担不均衡,产生了拥塞。
可通过如下方法尝试解决: