昇腾社区首页
中文
注册

PD分离场景,D节点出现“Pull kv failed”报错日志

问题现象描述

推理过程中,D节点在拉取KV cache时,出现“Pull kv failed”的“ERROR”级别报错日志,并且CANN的status_code中出现了timeout的错误码。

原因分析

PD分离场景中,D节点的KV cache需要从P节点那里拉取,出现这个错误,说明从P到D的KV cache传输超时,极有可能是网络质量差导致的。

解决措施

  • (推荐)使用如下命令查看网络重传次数,如果有部分卡网络重传次数过高,请检查该光模块。
      for i in $(seq 0 7); do echo "============> $i";hccn_tool -i $i -stat -g |grep rty;done
  • 在MindIE的配置文件“ModelDeployConfig”字段中设置"kv_trans_timeout" 为“5”,表示Pull kv的超时时间为5秒。这样设置可能会掩盖由网络问题导致的推理性能问题,请谨慎设置。