昇腾社区首页
中文
注册
开发者
下载

新增特性

编号

模块

详细

1

MindIE Service

  • 支持Atlas 800I A2推理产品P节点与D节点相同型号机型PD分离部署,提供P/D节点的独立调度,对接推理集群;
  • LLaMa系列、Qwen1、Qwen1.5和Qwen2系列模型支持Prefix Cache特性,提升Prefill阶段推理性能;
  • 支持Multi-lora推理,提供定制化的请求+prompt推理;
  • 支持多模态单图片服务化调度能力;
  • 服务化接口支持部分在线吞吐、时延等指标监控(普罗米修斯监控);
  • Benchmark支持关键数据可视化性能测试能力;
  • 提供服务策略管理相关能力,提供服务运维能力。

2

MindIE LLM

  • 开发调度模块,提供LLM Manager C++/Python API,实现推理和调度能力自闭环,支持与第三方服务化Server对接;
  • 支持PD分离部署,提供P/D节点的独立调度,对接推理集群;
  • LLaMa、Qwen系列模型支持Multi-lora模型推理,提供定制化的请求+prompt推理;
  • LLaMa、Qwen系列模型支持PrefixCache,引入RadixCache方案,提升Prefill阶段推理性能;
  • LLaMa、Qwen系列模型支持SplitFuse,支持P/D混推,提升用户性能和体验;
  • LLaVa、Qwen-VL、internVL、internLM-XComposer2、MiniCPM-V-2、MiniCPM-LLaMa3-V2.5支持多模态理解VLM模型对接服务化调度、单图url/base64。

3

MindIE SD

  • 支持SDXL模型在Atlas 800I A2推理产品(32G)进行diffusion pipeline的Lora权重热切;
  • 支持SD3-Medium模型在Atlas 800I A2推理产品(32G)进行推理,支持序列压缩和DitCache方案,支持采样器(FlowMatchEulerDiscreteScheduler)下沉;
  • 支持OpenSoRA1.2视频生成模型在Atlas 800I A2推理产品(32G)上进行推理,支持DitCache方案,支持DSP多卡并行;
  • 支持stableAudio文生语音类模型在Atlas 800I A2推理产品(32G)和Atlas 300I Duo 推理卡上进行推理。

4

MindIE Torch

  • 支持Dump数据,导出算子映射关系表,通过工具进行精度对比。
  • 支持与第三方服务化框架TEI v1.2.3版本对接。