智谱联合昇腾+昇思,开源首个自主创新算力底座训练的多模态SOTA模型
生态伙伴
发表于 2026/01/14
生态伙伴
发表于 2026/01/14
今天,智谱图像生成模型GLM-Image 正式发布。该模型采用自主创新的「自回归+扩散解码器」混合架构,是智谱面向「认知型生成」技术范式的一次重要探索,也是首个开源的工业表现级离散自回归图像生成模型。昇腾NPU和昇思MindSpore AI框架提供从数据到训练的全流程支撑,并提出一系列训练性能优化特性,助力智谱高性能训练出首个基于自主创新算力底座全程训练的SOTA模型。
GLM-Image模型基于创新的混合架构,实现了在文字渲染的权威榜单中达到开源SOTA水平。
•架构革新,面向「认知型生成」的技术探索:GLM-Image采用创新的「自回归 + 扩散编码器」混合架构,兼顾全局指令理解与局部细节刻画,克服了海报、PPT、科普图等知识密集型场景生成难题,向探索类”Nano Banana Pro”的新一代“知识+推理”生成模型迈出了重要一步。
•文字渲染开源SOTA:在CVTG-2K(复杂视觉文本生成)和LongText-Bench(长文本渲染)榜单获得开源第一,尤其擅长汉字生成任务。
•首个基于自主创新算力底座全程训练的SOTA模型:模型的自回归结构基于昇腾Atlas 800T A2设备与昇思MindSpore AI框架,完成了从数据预处理到大规模训练的全流程构建,验证了在全栈自主创新算力底座上也能训练出SOTA模型。
GLM-Image系列模型需要处理大量文字和图片数据,对模型训练的内存开销和性能提出了更高的挑战。为了应对这些挑战,昇腾+昇思MindSpore引入动态图多级流水下发、多流并行执行、高性能融合算子等特性,全面提升从数据处理、预训练、SFT到RL的端到端性能。
•支持动态图多级流水下发,大幅加速Host侧算子下发
NPU+CPU服务器常配备大规模多核CPU资源,单线程的算子下发往往跟不上NPU的计算,Host侧算力难以充分发挥,导致Device侧空转与整体资源利用率偏低。因此,使用了多级流水优化机制,依托昇腾+昇思MindSpore的软硬件协同,将Python执行、算子shape推导与算子下发等关键阶段进行流水化并高度重叠,有效提升Host侧并行度与下发效率,提升训练性能20%。
•支持多流并行执行,打破通信墙
多模态训练场景中,文本梯度同步、图像特征广播、混合并行等操作都有复杂的通信需求。单流串行执行时,计算和通信两类操作互相等待,整体资源利用率低。因此,通过多流并行执行机制,为通信和计算分别配置通信流和计算流,两者公用内存池来实现内存复用,允许通信和计算两类操作同时运行。此外,不同通信域还能单独申请和分配通信流,充分利用网络带宽消除通信串扰,整体提升训练性能10%。
•昇腾亲和的高性能融合算子,提升训练性能和稳定性
昇腾CANN高性能算子库提供多种高性能融合算子:AdamW EMA融合算子,缓解扩散模型训练后期loss震荡问题,使收敛效果更稳定;COC通算融合算子,使用集合通信创新算法,用计算掩盖多机多卡场景TP域中ReduceScatter和AllGather等核心通信算子的通信开销,通信效率提升15%。
让我们来看看 GLM-Image 在实际的复杂图文等任务中的表现。
场景一:科普插画
GLM-Image 更擅长绘制包含复杂逻辑流程与文字说明的科普插画及原理示意图。
场景二:多格图画
在生成电商图、漫画等多格图画时,GLM-Image能够保持风格和主体的一致性,并保障多处文字生成的准确率。
场景三:社交媒体图文
GLM-Image 适用于制作社交媒体封面及内容等排版复杂的图片,让您的创作更自由丰富。
场景四:商业海报
GLM-Image 能够生成构图富有设计感、文字嵌入准确的节日海报与商业宣传图。
场景五:写实摄影
在文字渲染以外,GLM-Image也同样擅长生成各种景别和尺寸的人像、宠物、风景、静物。

体验指导:https://modelers.cn/models/MindIE/GLM-Image
智谱GLM系列模型会持续迭代,昇思MindSpore也将同步上线更加丰富的特性,欢迎关注昇思MindSpore社区。
昇思MindSpore开源社区:https://www.mindspore.cn/
昇思MindSpore代码仓库:https://atomgit.com/mindspore
上一篇
下一篇