昇腾社区首页
中文
注册

新增特性

编号

模块

详细

1

MindIE Service

  • 支持Atlas 800I A2推理产品单机PD分离部署,P、D节点部署在同一容器内,不依赖参数面网络,使用卡间通信传输KVcache。
  • 支持Atlas 800I A2推理产品单实例跨机PD分离部署,P和D实例支持单个模型实例跨多台机器,模型实例支持DP、TP和EP并行策略。
  • 支持Token平滑响应策略(Buffer Response),根据用户时延要求延迟响应,避免TTFT和TBT超时,提升时延限制下的吞吐。
  • 支持异步推理,框架侧调度和模型推理并行,提升推理性能。
  • 支持服务化参数自动寻优功能。
  • 服务化支持api.openai.com/v1/completions接口。
  • 服务化api.openai.com/v1/chat/completions接口支持logprobs、top_logprobs、best_of、n和multi-lora。

2

MindIE LLM

  • 支持DeepSeek V3/R1大规模专家并行推理技术,支持TP/DP/EP并行策略。
  • 支持DeepSeek V3/R1 MTP(Multi-Token Prediction)特性,并支持叠加PD分离使用。
  • 支持DeepSeek V3/R1专家负载均衡优化。
  • 支持DeepSeek V3/R1 64K长序列推理。
  • 支持分布式调度和异步推理,提升推理性能。
  • 支持Qwen2.5 multilora和function call特性。
  • 支持LLaMa、Qwen系列下的PrefixCache叠加并行解码(LA、MD),支持Prefix Cache叠加Splitfuse。
  • 支持后处理logprob、best_of、n和beamsearch参数。
  • 支持以下多模态理解模型推理及服务化:

    Qwen2.5-VL 72B、QVQ-72B-Preview、glm4v、InternVL 2.5、VITA和MiniCPM v2.6

3

MindIE SD

  • 支持FA/PoPE/RMSNorm layer一键组网和插件式加速。
  • 支持自定义算子plug-in接入。
  • 支持Atlas 800I A2推理产品视频生成DiT、VAE模型实例,支持ulysses、DP、CFG并行策略。
  • 支持Atlas 800I A2推理产品DiT Cache和Attention Cache加速策略。

4

MindIE Turbo

  • 支持w8a8fa3量化。
  • 覆盖稠密(qwen/llama)、稀疏MOE(DeepSeek等)和多模态(Qwen VL等)主流模型类型。
  • 支持算子下发加速、框架调度性能加速、前后处理性能优化等功能,且默认使能。