PD分离场景,D节点出现“Pull kv failed”报错日志

问题现象描述

推理过程中,D节点在拉取KV cache时,出现“Pull kv failed”的“ERROR”级别报错日志,并且CANN的status_code中出现了time out的错误码。

原因分析

PD分离场景中,D节点的KV cache需要从P节点那里拉取,出现这个错误,说明从P到D的kvcache传输超时,极有可能是网络质量差导致的。

解决措施