遗留问题
当前版本遗留问题如遗留问题所示。
序号 |
遗留问题 |
规避措施 |
---|---|---|
1 |
PD实例连续/同时故障场景,当PD实例发生连续或同时故障时,存在概率性触发KV建链停滞的风险。 |
采用ras_starter.py脚本进行故障检测,当服务在设置时间内无法自动恢复时,将自动重启整个大规模专家并行集群。 |
2 |
Atlas 800I A2 推理服务器A800I A2硬件环境下,大规模专家并行集群启用CP功能的场景下,开启RAS(Reliability、Availability、Serviceability)后出现故障节点无法自动恢复。 |
采用ras_starter.py脚本进行故障检测,当服务在设置时间内无法自动恢复时,将自动重启整个大规模专家并行集群。 |
3 |
4*1P+1*4D无冗余组网,不开主备,D实例单节点下电,触发缩P保D失败。 |
采用ras_starter.py脚本进行故障检测,当服务在设置时间内无法自动恢复时,将自动重启整个大规模专家并行集群。 |
4 |
Atlas 800I A3 超节点硬件环境下,大规模专家并行场景有10%概率拉起服务失败。 |
手动重新拉起。 |
5 |
Atlas 800I A3 超节点硬件环境下,大规模专家并行场景(4+4)高并发压测(1k输入、1k输出、8192并发)过程中出现1次coordinator core dump,后续未再出现,存在一定风险。 |
采用ras_starter.py脚本进行故障检测,当服务在设置时间内无法自动恢复时,将自动重启整个大规模专家并行集群。 |
6 |
稠密模型BeamSearch在1000并发压测下服务不可用。 |
使用health_probe.sh健康探针脚本探测PD混部场景,如果服务化出现异常,将自动重启服务。 |
父主题: 2.1.RC2更新说明