昇腾社区首页
中文
注册
开发者
下载

单机Atlas 800I A3 超节点服务器进行PD混部服务部署时,出现chat接口性能劣化

问题现象描述

单卡专家数较多,平均每个专家分到token不多,当精度有差异的场景下,有可能遇到chat接口比非chat接口性能更差的情况。

原因分析

chat接口激活的专家分布更均衡,但单卡激活的专家数更多,需要搬运的专家也多,会导致性能变差,造成GMM算子性能波动。

解决措施

这个是chat/no chat接口导致的固有差异,属于正常现象。