升级后对现行系统的影响
本版本修正了LLM框架在服务化config.json配置中对“maxbatchsize”字段的定义。修正前,该字段表示“Decode阶段所有DP组batch个数之和的最大上限”;修正后,表示“Decode阶段每个DP组batch个数的最大上限”。
由于“maxbatchsize”字段会影响服务启动时后处理显存的预分配,原配置可能导致推理过程中出现OOM(内存不足)报错。该版本修正后,系统将根据maxbatchsize*DP计算最多的Decode请求数,并以此分配后处理所需的显存,显存估算更为准确,但占用也会相应增加。因此,升级后需根据实际业务情况重新配置“maxbatchsize”字段。
配置调整示例:
- 若原配置为:maxbatchsize=200,DP=1,则该版本无需更改。
- 若原配置为:maxbatchsize=200,DP=2,建议调整为maxbatchsize=100,DP=2,以保持maxbatchsize*DP与原配置效果一致。
父主题: 升级影响