遗留问题

当前版本遗留问题如遗留问题所示。

表1 遗留问题
序号	遗留问题	规避措施
1	PD实例连续/同时故障场景，当PD实例发生连续或同时故障时，存在概率性触发KV建链停滞的风险。	采用ras_starter.py脚本进行故障检测，当服务在设置时间内无法自动恢复时，将自动重启整个大规模专家并行集群。
2	Atlas 800I A2 推理服务器硬件环境下，大规模专家并行集群启用CP功能的场景下，开启RAS（Reliability、Availability、Serviceability）后出现故障节点无法自动恢复。	采用ras_starter.py脚本进行故障检测，当服务在设置时间内无法自动恢复时，将自动重启整个大规模专家并行集群。
3	41P+14D无冗余组网，不开主备，D实例单节点下电，触发缩P保D失败。	采用ras_starter.py脚本进行故障检测，当服务在设置时间内无法自动恢复时，将自动重启整个大规模专家并行集群。
4	Atlas 800I A3 超节点硬件环境下，大规模专家并行场景有10%概率拉起服务失败。	手动重新拉起。
5	Atlas 800I A3 超节点硬件环境下，大规模专家并行场景（4+4）高并发压测（1k输入、1k输出、8192并发）过程中出现1次coordinator core dump，后续未再出现，存在一定风险。	采用ras_starter.py脚本进行故障检测，当服务在设置时间内无法自动恢复时，将自动重启整个大规模专家并行集群。
6	稠密模型BeamSearch在1000并发压测下服务不可用。	使用health_probe.sh健康探针脚本探测PD混部场景，如果服务化出现异常，将自动重启服务。

父主题： 2.1.RC2更新说明