遗留问题
序号 |
遗留问题 |
规避手段 |
|---|---|---|
1 |
有冗余节点故障重配置和NPU-1520端口故障下的缩P保D故障恢复时间大于5分钟。 |
不涉及。 |
2 |
单节点连续故障(如P恢复后再次故障)、P和D先后或同时故障、以及多实例并发故障,由于当前Controller到HCCP的流程在GRT表更新后缺少完善的退出机制,会导致系统陷入在roleswitching的循环中,必须等待超时后才能进行重调度。 |
该场景下发生故障后,系统需等待约20分钟才会上报底层建链超时错误。继而触发重调度流程以恢复服务,此时可在实例日志中观察到相应的明确报错信息。 |
3 |
Qwen3-235B 1P1D场景部分用例相比2.2.RC1版本吞吐下降5%。 |
Qwen3-235B模型推荐使用vLLM。 |
父主题: 2.3.0更新说明