新增特性 编号 模块 详细 1 MindIE Service 支持Atlas 800I A2推理产品单机PD分离部署,P、D节点部署在同一容器内,不依赖参数面网络,使用卡间通信传输KVcache。支持Atlas 800I A2推理产品单实例跨机PD分离部署,P和D实例支持单个模型实例跨多台机器,模型实例支持DP、TP和EP并行策略。支持Token平滑响应策略(Buffer Response),根据用户时延要求延迟响应,避免TTFT和TBT超时,提升时延限制下的吞吐。支持异步推理,框架侧调度和模型推理并行,提升推理性能。支持服务化参数自动寻优功能。服务化支持api.openai.com/v1/completions接口。服务化api.openai.com/v1/chat/completions接口支持logprobs、top_logprobs、best_of、n和multi-lora。 2 MindIE LLM 支持DeepSeek V3/R1大规模专家并行推理技术,支持TP/DP/EP并行策略。支持DeepSeek V3/R1 MTP(Multi-Token Prediction)特性,并支持叠加PD分离使用。支持DeepSeek V3/R1专家负载均衡优化。支持DeepSeek V3/R1 64K长序列推理。支持分布式调度和异步推理,提升推理性能。支持Qwen2.5 multilora和function call特性。支持LLaMa、Qwen系列下的PrefixCache叠加并行解码(LA、MD),支持Prefix Cache叠加Splitfuse。支持后处理logprob、best_of、n和beamsearch参数。支持以下多模态理解模型推理及服务化:Qwen2.5-VL 72B、QVQ-72B-Preview、glm4v、InternVL 2.5、VITA和MiniCPM v2.6 3 MindIE SD 支持FA/PoPE/RMSNorm layer一键组网和插件式加速。支持自定义算子plug-in接入。支持Atlas 800I A2推理产品视频生成DiT、VAE模型实例,支持ulysses、DP、CFG并行策略。支持Atlas 800I A2推理产品DiT Cache和Attention Cache加速策略。 4 MindIE Turbo 支持w8a8fa3量化。覆盖稠密(qwen/llama)、稀疏MOE(DeepSeek等)和多模态(Qwen VL等)主流模型类型。支持算子下发加速、框架调度性能加速、前后处理性能优化等功能,且默认使能。