昇腾社区首页
中文
注册

概述

随着人工智能模型规模的不断扩大及应用场景的日益复杂,在昇腾AI计算平台上进行训练和部署时,面临着Host-Device协同效率不高、重要算子性能下滑、通信延迟增大、模型下发效率低等诸多挑战。因此,深度学习系统的性能瓶颈也从计算能力提升,转变为对硬件平台、软件栈、通信机制以及模型结构之间的协同效率进行全面优化的需求。

在此背景下,迫切需要构建一套系统性的性能分析与优化框架,涵盖性能数据采集、算子层面优化、调度策略调整、通信机制改善以及模型编译下发等多个环节。性能优化不仅成为提高昇腾产品竞争力和用户满意度的重要途径,也是推动昇腾软硬件平台不断进步的关键引擎。通过对训练与推理任务进行全流程、系统化的性能优化,可显著提升各种典型模型的执行效率,加快开发和迭代周期。

性能优化原则

性能优化原则需遵循算子优先、昇腾亲和优化策略、模型设计策略,具体请参见表1

表1 性能优化原则

原则名称

说明

算子优先

算子能力是基础,唯有优秀的算子能力才能保障单机和集群性能的卓越表现。

昇腾亲和优化策略

昇腾AI处理器基于高度并行的架构设计,在指令级并行和数据搬运效率方面进行了深度优化。例如,在数据访问单元设计上,昇腾的Cache Line大小达到512字节,显著高于业界常见的32字节水平,能够有效提升大粒度数据传输的带宽利用率,降低访存延迟。因此,在编程与算子优化过程中,建议尽可能对齐硬件特性,提升数据局部性,使每次内存操作处理更大规模的数据,从而充分发挥高带宽、大吞吐的优势。

模型设计策略

模型应尽可能多地利用矩阵运算,并充分复用AI Core(矩阵计算单元),以提升整体效率。

性能优化方向

性能优化目标可以从计算、通信、下发以及服务化调度四个维度进行优化,具体请参见表2

表2 性能优化方向

维度

优化方向

计算

算子性能符合预期 (矩阵乘计算利用率,MTE搬运流水利用率等)。

计算集中于AI Core,充分利用Cube资源。

消除AI CPU算子和非亲和算子及算法逻辑优化。

充分利用融合算子。

通信

通信带宽符合预期,未发生通信重传等问题。

各卡通信时间相对均衡,无明显快慢卡问题。

通算并行,计算尽可能掩盖通信时间。

下发

Free占比尽可能小。

计算掩盖调度时间。

IO/内存问题消除。

服务化推理

模型推理部分时延逼近纯模型性能。

最小化Batch间CPU任务占比。

调优调度参数和batch上限在时延约束下显存占满最大化吞吐。