遗留问题
遗留问题 |
规避措施 |
|---|---|
Atlas 800I A3 超节点服务器单机16K配置场景,进行压测后,出现服务无响应,且mla_16_mix_aic算子报错。该报错场景只出现过一次,后续未再出现,存在一定风险。 |
使用health_probe.sh健康探针脚本探测PD混部场景,如果服务化出现异常,将自动重启服务。 |
Atlas 800I A3 超节点服务器单机高性能配置场景,进行jmeter 400并发压测,运行数小时后出现coredump。该报错场景只出现过一次,后续未再出现,存在一定风险。 |
使用health_probe.sh健康探针脚本探测PD混部场景,如果服务化出现异常,将自动重启服务。 |
Atlas 800I A2 推理服务器双机DS混布+用户自有FastGPT服务场景,长稳故障退出。研发环境无法复现,存在一定风险。 |
使用health_probe.sh健康探针脚本探测PD混部场景,如果服务化出现异常,将自动重启服务。 |
Controller和D实例同时故障触发重调度,需要20分钟报出底层建链超时错误,执行重调度流程,总计服务恢复时间约30分钟。 |
不涉及。 |
P/D实例连续故障触发重调度,需要20分钟报出底层建链超时错误,执行重调度流程,总计服务恢复时间约30分钟。 |
不涉及。 |
父主题: 2.2.RC1更新说明