商汤大装置成功适配昇腾384超节点，共创AI基础设施新未来

产业生态伙伴

发表于 2025/09/05

近日，商汤携手昇腾AI基于商汤大装置SenseCore与昇腾384超节点合作创新，在集群适配、功能性能上全面达成预期目标，双方团队紧密合作，在调度优化、系统稳定性以及故障恢复等方面取得多项技术创新突破，为大模型高效训练与推理，进一步释放昇腾AI澎湃性能，全面加速昇腾384超节点在各行各业的创新和应用落地提供了坚实支撑。

超节点（SuperPod）是一种通过高速互联技术，将多个GPU/NPU整合为统一计算单元的新型架构，解决AI大模型训练中的算力协同与通信效率问题。

今年5月，在鲲鹏昇腾开发者大会上，华为推出了昇腾384超节点（Atlas 900 A3 SuperPoD），实现高速互联总线的关键突破——把总线从服务器内部扩展到整机柜、甚至跨机柜，最终将CPU、NPU、DPU、存储和内存等资源全部互联和池化，形成一台“超级计算机”，实现更大的算力密度和互联带宽。

与此同时，这一全新方案架构，也对软件栈的升级和平台调度优化提出了更高要求，让它能“跑得快、跑得稳”。

作为AI云原生平台，商汤大装置SenseCore致力于为用户提供敏捷、灵活、可靠的全栈AI基础设施服务，以极致性价比推动大模型技术的高效落地与规模化应用。

基于商汤大装置SenseCore与昇腾384超节点的特点，双方团队联合攻关，在调度优化、系统稳定性以及故障恢复等方面提出多项技术创新：

调度优化：在调度能力上，除了支持POD内单机和多机调度、跨POD多机调度、亲和性调度等基础能力，SenseCore平台配合模型并行策略实现了逻辑超节点自动划分，使EP/TP等大通信策略可以充分利用高速互联总线，提升模型训练效率。
跨POD训练稳定性：另外SenseCore团队提交了多个MR修复多POD场景下master/work任务rank乱序问题，从根本上解决了跨POD训练任务概率性失败的问题。
多维度故障检测与恢复：在故障检测能力上覆盖了从服务器硬件、高速互联总线、RoCE网络到任务、进程软硬件多维度检测，结合检测能力实现Job/Pod/进程多级恢复机制，全面提升昇腾384超节点在训练场景下的可靠性与容错性。

此次商汤与昇腾AI的深度合作，让多租户、大规模、弹性AI云服务成为可能。

商汤科技大装置事业群CTO宣善明表示：“商汤大装置非常重视并深度参与中国算力生态建设。SenseCore成为首批完成昇腾384超节点适配的AI云平台，不仅得益于SenseCore平台的开放性、完善的功能和丰富的应用实践，更是中国AI基础设施融合发展的重要里程碑。SenseCore通过与昇腾的深度融合，充分释放昇腾算力潜能，为产业界提供更加敏捷、智能、可靠的算力底座，商汤也将在此基础上打造面向各行业的AI解决方案，共同推动千行百业的智能化升级”。

未来，双方还将探索更多应用场景，包括大模型推理加速、智能体应用部署、面向垂直行业的大模型训练与推理优化等，进一步加速基于SenseCore的昇腾384超节点在各行各业的应用落地。

新一代超大模型训练引擎XTuner V1开源，昇腾384超节点训练效率突破上限！

一镜到底看未来？AI预告片带你解锁华为全联接大会2025！

商汤大装置成功适配昇腾384超节点，共创AI基础设施新未来

关于昇腾

新闻与活动

交流与资讯

支持与服务

开源社区

Links