昇腾社区首页
中文
注册

遗留问题

当前版本遗留问题如遗留问题所示。

表1 遗留问题

序号

遗留问题

规避措施

1

PD实例连续/同时故障场景,当PD实例发生连续或同时故障时,存在概率性触发KV建链停滞的风险。

采用ras_starter.py脚本进行故障检测,当服务在设置时间内无法自动恢复时,将自动重启整个大规模专家并行集群。

2

Atlas 800I A2 推理服务器A800I A2硬件环境下,大规模专家并行集群启用CP功能的场景下,开启RAS(Reliability、Availability、Serviceability)后出现故障节点无法自动恢复。

采用ras_starter.py脚本进行故障检测,当服务在设置时间内无法自动恢复时,将自动重启整个大规模专家并行集群。

3

4*1P+1*4D无冗余组网,不开主备,D实例单节点下电,触发缩P保D失败。

采用ras_starter.py脚本进行故障检测,当服务在设置时间内无法自动恢复时,将自动重启整个大规模专家并行集群。

4

Atlas 800I A3 超节点硬件环境下,大规模专家并行场景有10%概率拉起服务失败。

手动重新拉起。

5

Atlas 800I A3 超节点硬件环境下,大规模专家并行场景(4+4)高并发压测(1k输入、1k输出、8192并发)过程中出现1次coordinator core dump,后续未再出现,存在一定风险。

采用ras_starter.py脚本进行故障检测,当服务在设置时间内无法自动恢复时,将自动重启整个大规模专家并行集群。

6

稠密模型BeamSearch在1000并发压测下服务不可用。

使用health_probe.sh健康探针脚本探测PD混部场景,如果服务化出现异常,将自动重启服务。