昇腾大模型推理方案简介

基于推理引擎的大模型推理方案,支持图模式和单算子调用方式的推理,且支持Tensor并行及8bit量化以及Stable Diffusion和LLM类大模型迁移。
图1 大模型推理方案

基于推理引擎的大模型推理架构实现如图2所示。
图2 大模型推理架构实现

LLM类大模型推理采用分层架构设计,基于Transformer结构实现大模型推理。