推理过程中,D节点在拉取KV cache时,出现“Pull kv failed”的“ERROR”级别报错日志,并且CANN的status_code中出现了time out的错误码。
PD分离场景中,D节点的KV cache需要从P节点那里拉取,出现这个错误,说明从P到D的kvcache传输超时,极有可能是网络质量差导致的。
for i in $(seq 0 7); do echo "============> $i";hccn_tool -i $i -stat -g |grep rty;done