新增特性

编号	模块	详细
1	MindIE Service	支持Atlas 800I A2推理产品单机PD分离部署，P、D节点部署在同一容器内，不依赖参数面网络，使用卡间通信传输KVcache。支持Atlas 800I A2推理产品单实例跨机PD分离部署，P和D实例支持单个模型实例跨多台机器，模型实例支持DP、TP和EP并行策略。支持Token平滑响应策略（Buffer Response），根据用户时延要求延迟响应，避免TTFT和TBT超时，提升时延限制下的吞吐。支持异步推理，框架侧调度和模型推理并行，提升推理性能。支持服务化参数自动寻优功能。服务化支持api.openai.com/v1/completions接口。服务化api.openai.com/v1/chat/completions接口支持logprobs、top_logprobs、best_of、n和multi-lora。
2	MindIE LLM	支持DeepSeek V3/R1大规模专家并行推理技术，支持TP/DP/EP并行策略。支持DeepSeek V3/R1 MTP（Multi-Token Prediction）特性，并支持叠加PD分离使用。支持DeepSeek V3/R1专家负载均衡优化。支持DeepSeek V3/R1 64K长序列推理。支持分布式调度和异步推理，提升推理性能。支持Qwen2.5 multilora和function call特性。支持LLaMa、Qwen系列下的PrefixCache叠加并行解码（LA、MD），支持Prefix Cache叠加Splitfuse。支持后处理logprob、best_of、n和beamsearch参数。支持以下多模态理解模型推理及服务化： Qwen2.5-VL 72B、QVQ-72B-Preview、glm4v、InternVL 2.5、VITA和MiniCPM v2.6
3	MindIE SD	支持FA/PoPE/RMSNorm layer一键组网和插件式加速。支持自定义算子plug-in接入。支持Atlas 800I A2推理产品视频生成DiT、VAE模型实例，支持ulysses、DP、CFG并行策略。支持Atlas 800I A2推理产品DiT Cache和Attention Cache加速策略。
4	MindIE Turbo	支持w8a8fa3量化。覆盖稠密（qwen/llama）、稀疏MOE（DeepSeek等）和多模态（Qwen VL等）主流模型类型。支持算子下发加速、框架调度性能加速、前后处理性能优化等功能，且默认使能。