新增特性

编号	模块	详细
1	MindIE Service	支持Atlas 800I A2推理产品P节点与D节点相同型号机型PD分离部署，提供P/D节点的独立调度，对接推理集群; LLaMa系列、Qwen1、Qwen1.5和Qwen2系列模型支持Prefix Cache特性，提升Prefill阶段推理性能；支持Multi-lora推理，提供定制化的请求+prompt推理；支持多模态单图片服务化调度能力；服务化接口支持部分在线吞吐、时延等指标监控（普罗米修斯监控）； Benchmark支持关键数据可视化性能测试能力；提供服务策略管理相关能力，提供服务运维能力。
2	MindIE LLM	开发调度模块，提供LLM Manager C++/Python API，实现推理和调度能力自闭环，支持与第三方服务化Server对接；支持PD分离部署，提供P/D节点的独立调度，对接推理集群； LLaMa、Qwen系列模型支持Multi-lora模型推理，提供定制化的请求+prompt推理； LLaMa、Qwen系列模型支持PrefixCache，引入RadixCache方案，提升Prefill阶段推理性能； LLaMa、Qwen系列模型支持SplitFuse，支持P/D混推，提升用户性能和体验； LLaVa、Qwen-VL、internVL、internLM-XComposer2、MiniCPM-V-2、MiniCPM-LLaMa3-V2.5支持多模态理解VLM模型对接服务化调度、单图url/base64。
3	MindIE SD	支持SDXL模型在Atlas 800I A2推理产品（32G）进行diffusion pipeline的Lora权重热切；支持SD3-Medium模型在Atlas 800I A2推理产品（32G）进行推理，支持序列压缩和DitCache方案，支持采样器（FlowMatchEulerDiscreteScheduler）下沉；支持OpenSoRA1.2视频生成模型在Atlas 800I A2推理产品（32G）上进行推理，支持DitCache方案，支持DSP多卡并行；支持stableAudio文生语音类模型在Atlas 800I A2推理产品（32G）和Atlas 300I Duo 推理卡上进行推理。
4	MindIE Torch	支持Dump数据，导出算子映射关系表，通过工具进行精度对比。支持与第三方服务化框架TEI v1.2.3版本对接。