TLS信息配置不一致
问题现象
在CANN日志中存在关键字"Some ranks tlsStatus are inconsistent.",如下所示:
[ERROR] HCCL(94774,all_reduce_test):2025-10-27-11:51:32.570.490 [topoinfo_exchange_agent.cc:831] [94774][Verify][TlsConsistency] Some ranks tlsStatus are inconsistent. The tlsStatus of inconsistent ranks are [Disable].Inconsistent serverId/rankId: [127.10.0.1/0];
原因分析
通信域创建过程中server节点收到通信域内所有rank的信息后,会校验通信域内所有rank的tls配置是否一致,若存在配置不一致场景,则会直接校验失败退出,同时会打印出Disable或者Enable的节点列表,而未打印的节点列表则为相反的tls配置。
此校验功能仅支持在Ascend HDK 25.2.0以上的版本中使用。
解决方法
- 查询集合通信的各服务器TLS状态开关。
在服务器中执行如下命令,获取TLS开关使能状态。
hccn_tool -i <device_id> -tls -g
其中<device_id>为Device设备的逻辑ID,您也可以通过如下for语句,一次性查询所有Device设备的TLS信息。
for i in `seq 0 7`; do hccn_tool -i $i -tls -g; done # 0,7分别为需要查询的Device ID的起始与结束值。
打印信息如下所示:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
dev_id:0, tls switch[0](0:disable, 1:enable), tls alarm time threshold[60]days dev_id:0, [pub cert] info: issuer[/C=CN/ST=GD/O=HUAWEI/OU=2012/CN=2_1thCA] start_time[Wed Feb 19 03:19:21 2020 GMT] end_time[Sat Feb 16 03:19:21 2030 GMT] dev_id:0, [ca1 cert] info: issuer[/C=CN/ST=GD/L=SZ/O=HUAWEI/CN=1thCA] start_time[Wed Feb 19 03:19:07 2020 GMT] end_time[Sat Feb 16 03:19:07 2030 GMT] dev_id:0, [ca2 cert] info: issuer[/C=CN/ST=GD/L=SZ/O=HUAWEI/CN=1thCA] start_time[Wed Feb 19 03:19:10 2020 GMT] end_time[Sat Feb 16 03:19:10 2030 GMT] dev_id:1, tls switch[0](0:disable, 1:enable), tls alarm time threshold[60]days dev_id:1, [pub cert] info: issuer[/C=CN/ST=GD/O=HUAWEI/OU=2012/CN=2_1thCA] start_time[Wed Feb 19 03:19:21 2020 GMT] end_time[Sat Feb 16 03:19:21 2030 GMT] dev_id:1, [ca1 cert] info: issuer[/C=CN/ST=GD/L=SZ/O=HUAWEI/CN=1thCA] start_time[Wed Feb 19 03:19:07 2020 GMT] end_time[Sat Feb 16 03:19:07 2030 GMT] dev_id:1, [ca2 cert] info: issuer[/C=CN/ST=GD/L=SZ/O=HUAWEI/CN=1thCA] start_time[Wed Feb 19 03:19:10 2020 GMT] end_time[Sat Feb 16 03:19:10 2030 GMT] ... ...
其中tls switch[0],代表TLS状态为关闭,switch[1]代表TLS状态为使能。
- 判断各服务器中所有Device的TLS状态开关是否一致。
- 若不一致,建议统一修改TLS状态为使能。若TLS开关关闭,集合通信时会存在信息被窃听、篡改、仿冒的风险。
hccn_tool -i <device_id> -tls -s enable 1
enable为使能开关,配置为1代表使能,配置为0代表关闭。
- 若一致且状态为使能,建议您继续执行3判断各节点的TLS证书信息是否一致。
- 若不一致,建议统一修改TLS状态为使能。若TLS开关关闭,集合通信时会存在信息被窃听、篡改、仿冒的风险。
- 查看所有服务器中各Device的TLS证书信息是否一致。
您可以通过1中的信息判断各Device TLS证书信息是否一致。若不一致,您可以通过如下命令替换证书套件。
hccn_tool -i 0 -tls -s path /root pri pri.pem pub pub.pem ca1 ca1.pem ca2 ca2.pem crl xxx.crl
-i为Device ID,-path为指定证书/私钥/吊销列表存放路径,pri为私钥名字,pub为设备证书文件名,ca1/ca2/crl分别为根证书、二级根证书、吊销列表文件名。