单机Atlas 800I A3 超节点服务器进行PD混部服务部署时,出现chat接口性能劣化
问题现象描述
单卡专家数较多,平均每个专家分到token不多,当精度有差异的场景下,有可能遇到chat接口比非chat接口性能更差的情况。
原因分析
chat接口激活的专家分布更均衡,但单卡激活的专家数更多,需要搬运的专家也多,会导致性能变差,造成GMM算子性能波动。
解决措施
这个是chat/no chat接口导致的固有差异,属于正常现象。
父主题: FAQ
单卡专家数较多,平均每个专家分到token不多,当精度有差异的场景下,有可能遇到chat接口比非chat接口性能更差的情况。
chat接口激活的专家分布更均衡,但单卡激活的专家数更多,需要搬运的专家也多,会导致性能变差,造成GMM算子性能波动。
这个是chat/no chat接口导致的固有差异,属于正常现象。