资源

昇腾万里,开放创新,共赢智能时代

产业

发表于 2025/09/19

[中国,上海,2025年9月18日] 在华为全联接大会2025期间,以“与时代,共昇腾”为主题的昇腾AI人工智能产业峰会在上海成功举行。会上,华为昇腾计算业务总裁张迪煊发表题为《昇腾万里,开放创新,共赢智能时代》的主题演讲。他表示,面对AI系统复杂度的变化,我们需要一套系统架构来满足大模型多维能力演进的要求,而超节点架构正是当前业界AI基础建设的共识,并已经成为建设主流。面向未来,提前规划、加速建设先进液冷机房,是企业应对AI时代变化的基础。

华为昇腾计算业务总裁  张迪煊


以下是张迪煊的演讲全文


尊敬的各位领导、各位来宾,大家下午好!

今天,非常高兴和大家再次相聚在HC昇腾AI人工智能产业峰会的现场。在大家的共同支持和努力下,昇腾AI产业实现了快速发展。在此,我谨代表华为昇腾计算业务,感谢大家的到来!


大模型从生成式AI加速迈向Agentic AI,超节点成为业界共识

当前,大模型正从生成式AI加速迈向Agentic AI,从生成创造走向自主执行,从“简单互动”向“复杂问题处理”进化,模型能力向物理世界延伸,Physical AI将成为AI产业新的研究方向。

在模型结构层面,MoE(混合专家模型)成为主流架构,专家数量持续增加;序列长度走向百万级别,一次可承载150万中文字符;推理系统也从单模型应用转向多Agent调用,全链路的极低时延通信成为基础支撑。

面对大模型时代的全新需求,现有系统已难以满足,构建一套适配新时代的系统成为行业共识,超节点由此成为业界主流选择。

昇腾384超节点自发布以来,累计部署量已突破300套,服务20多家客户,成为大模型基础设施首选。


昇腾AI持续突破创新,开源开放,引领AI产业发展

一直以来,昇腾AI始终坚持围绕三大方向突破和创新,并取得阶段性成果:

  • 基础硬件层面:架构创新,引领超节点

今年,我们为业界带来了规模最大的384超节点,明年,这一规模将进一步突破至8192,持续引领产业技术方向。

  • 基础软件层面:坚持开源开放

我们将开发环境从公司内部搬到了开源社区,与产业界协同创新。目前,昇腾开源项目的Star数已突破35k,累计接收开发者26万行代码合入。同时,我们也积极参与外部开源生态建设,累计参与50多个三方开源社区项目,贡献代码超37万行。

  • 解决方案层面:围绕负载变化,在预训练、后训练及推理应用,构建领先技术能力

例如,基于昇腾384超节点,我们实现了业界首个“一卡一专家”的推理集群方案,实现15ms极致时延,为前沿应用创新提供核心支撑,为用户带来更优体验。


以领先的超节点产品打造领先的AI集群

产业界对超节点的定义需要满足三大特征:超大带宽、超低时延和内存统一编址

昇腾384超节点提供307 P算力,通信带宽从传统的50GB/s提升到784GB/s,提升15倍;通信时延从2微秒降低至200纳秒,降低10倍;单机显存从512G提升到了48TB,存储能力大幅跃升。

性能突破背后是散热、互联、系统稳定性等系统工程挑战。当前业界仅实现72超节点规模,而华为依托ICT领域30多年的技术积累,通过LAAC风液混合散热、模块化正交架构、多平面设计、基于星云光模块全光互联等技术,打造领先超节点产品。Atlas 800 A3风冷超节点表现同样优异,单台提供6 P算力、TB级显存,支持新老机房灵活部署。

随着AI算力功耗快速增长,设备散热方式正从风冷向液冷转变。凭借物理特性与系统设计优势,液冷散热在散热能力、能效、空间适配等维度形成压倒性优势,成为大功率算力设备的首选方案。

基于这一趋势,液冷机房的提前规划和建设至关重要,需重点关注三大核心要素:

  • 承重体系:高密机柜平均每平方米重量已达 1.5 吨,需在机房建设阶段提前考量承重能力。
  • 散热系统:液冷系统需具备易运维特性,冷板散热已成为主流趋势,需重点关注冷板式液冷器件、冷却液、快接头等技术与产品布局。
  • 供电系统:液冷机房交流电压基本稳定在380伏特,需重点关注最大输入电流的变化。机房先于设备提前准备,建议2025年满足单柜54kw能力,2026年满足95kw,2027年满足150kw,以匹配各代际昇腾超节点部署需求。


预训练解决方案持续升级,充分发挥超节点能力

为充分发挥超节点能力,昇腾预训练解决方案围绕“高性能、高可用”持续升级:

在多模态训练中,我们独创多模态并行调度算法,将视图与语言的处理解耦,实现切分策略独立配置,充分利用带宽资源,性能提升达2.8倍以上。这一技术加速了DiT-MoE、生成理解统一等前沿技术的探索创新,已支持客户孵化SOTA(最优性能)模型并上线商用。

在系统可用性方面,MindCluster升级亚健康容错能力,可在不中断训练的前提下完成热备份与秒级重调度,任务能恢复到最近的训练步骤,真正实现无感、无损的优雅恢复。

在客户MoE类模型预训练中,我们实现了45%的极致MFU(模型计算利用率)。针对万卡集群,我们将提供“30小时无故障运行、5分钟集群故障恢复”的能力,进一步加速创新进程。


1套架构,2种开发模式,后训练解决方案使能强化学习落地

强化学习是激发模型深度思考能力的必经之路,但技术门槛较高——涉及数据、算法、训推协同、调试调优、效果评测等多个环节。

针对这一痛点,昇腾后训练解决方案通过1套架构,2种开发模式,为行业客户提供清晰的落地路径

  • 全流程开发模式:适配从0到1构建强化学习的场景。通过Docker完整镜像,可一键部署从数据工程、RL(强化学习)训练及效果评测的完整环境。在金融客户的实践中,我们通过总结数据工程最佳实践,帮助客户快速构建数据筛选、配置等能力,加速RL能力构建,实现信贷风险识别场景准确率提升47%。
  • 高性能开发模式:适配强化学习技术创新场景。提供训练、推理双环节加速特性,并创新性地将大规模专家并行(大EP)推理加速技术应用于强化学习领域,在精度无损的前提下,实现性能1.2倍以上的提升。

目前,我们的基础能力均已在Gitee开源,Docker镜像、参考实践也将在10月30日在昇腾社区上线,欢迎大家下载使用。


超节点灵活配置,提供高吞吐、低时延的推理解决方案

面向大模型推理场景,我们沉淀业界经验,在保持吞吐、时延领先的基础上,支持32到384卡超节点灵活配置。

随着多模态等模型技术的发展,上下文长度持续增加、输入序列呈现变长特征 —— 如果变长序列处理不当,易导致“语义割裂”,影响准确性,我们要解决短序列资源利用率问题。针对这一挑战,昇腾创新推出动态CP/DP技术,可基于序列长度动态选择最佳并行策略,实现并行效率最优。同时通过Prefill(预填充)动态调度技术,根据序列长度自动调整分桶比重,将相近长度请求分配到最合适的序列类型中,实现资源利用率最大化。基于以上技术,变长序列场景吞吐性能可提升40%以上,同时突破百万级上下文长度,满足大模型推理演进需求。


使能伙伴打造领先产品,加速千行万业走深向实

联合合作伙伴打造硬件产品,是昇腾始终坚持的战略方向。我们将正式推出Atlas 800I A3和Atlas 300I A2,助力伙伴打造领先产品。

基于昇腾A800I A3模组,伙伴可以打造16卡、8卡一体机,服务于互联网、政府、民生企业等行业核心业务:在辅助编程、报告生成等场景,16卡一体机可支持PD分离、专家并行等加速技术,MoE模型领先1.8倍;在办公、RAG知识检索等场景,单机8卡一体机可单独部署,LLM(大语言模型)稠密模型性能领先1.9倍。

基于A300I A2标卡,伙伴可灵活开发1至16卡的PCIe标卡一体机,服务于医院、学校、政府区县等轻量化大模型应用场景。

除了硬件、模型支撑外,更需要结合应用才能帮助企业用好AI。为此,昇腾联合ISV打造场景化解决方案,由伙伴提供匹配场景的模型和应用,集成昇腾高性能算力底座,向客户交付整体应用解决方案。

目前,我们正联合20多家ISV,面向金融、能源、泛政府、教育及医疗5大行业,打造“小而美”的解决方案,包含信贷报告、电力运检等行业核心场景,以及财务报告、网络安全等企业通用场景。在此,我们诚挚欢迎更多ISV加入,共同挖掘新场景、新机会,让AI走深向实,智能无所不及。


坚持开源开放,发展可持续、有韧性的AI产业生态

昇腾生态的发展离不开各位的支持。我们始终坚定围绕硬件、算子、加速库、模型及应用五大创新方向,与业界共同发展,并且取得了一系列成果。

今年,我们全面开源开放,以创新技术促进开源共创,以领先成果加速开源贡献。人才是产业发展的源泉,昇腾持续投入智能基座、卓越中心、孵化中心、CANN学术基金等项目,联合产学研力量培育优秀AI人才,到目前,已经培养了500多名硕博人才,孵化了80多个生态课题,为产业发展奠定坚实基础。

欢迎更多的客户、伙伴及开发者加入到昇腾五大创新方向,共同发展可持续、有韧性的AI产业生态!

一切过往皆为序章,未来必将波澜壮阔,让我们一起与时代,共昇腾!


上一篇

华为杨超斌:昇腾超节点持续创新,加速AI走深向实

下一篇

华为全联接大会2025丨昇腾AI人工智能产业峰会新闻快讯