PD分离场景,D节点出现“Pull kv failed”报错日志
问题现象描述
推理过程中,D节点在拉取KV cache时,出现“Pull kv failed”的“ERROR”级别报错日志,并且CANN的status_code中出现了timeout的错误码。
原因分析
PD分离场景中,D节点的KV cache需要从P节点那里拉取,出现这个错误,说明从P到D的KV cache传输超时,极有可能是网络质量差导致的。
解决措施
- (推荐)使用如下命令查看网络重传次数,如果有部分卡网络重传次数过高,请检查该光模块。
for i in $(seq 0 7); do echo "============> $i";hccn_tool -i $i -stat -g |grep rty;done
- 在MindIE的配置文件“ModelDeployConfig”字段中设置"kv_trans_timeout" 为“5”,表示Pull kv的超时时间为5秒。这样设置可能会掩盖由网络问题导致的推理性能问题,请谨慎设置。
父主题: FAQ