概述

随着人工智能模型规模的不断扩大及应用场景的日益复杂，在昇腾AI计算平台上进行训练和部署时，面临着Host-Device协同效率不高、重要算子性能下滑、通信延迟增大、模型下发效率低等诸多挑战。因此，深度学习系统的性能瓶颈也从计算能力提升，转变为对硬件平台、软件栈、通信机制以及模型结构之间的协同效率进行全面优化的需求。

在此背景下，迫切需要构建一套系统性的性能分析与优化框架，涵盖性能数据采集、算子层面优化、调度策略调整、通信机制改善以及模型编译下发等多个环节。性能优化不仅成为提高昇腾产品竞争力和用户满意度的重要途径，也是推动昇腾软硬件平台不断进步的关键引擎。通过对训练与推理任务进行全流程、系统化的性能优化，可显著提升各种典型模型的执行效率，加快开发和迭代周期。

性能优化原则

性能优化原则需遵循算子优先、昇腾亲和优化策略、模型设计策略，具体请参见表1。

表1 性能优化原则
原则名称	说明
算子优先	算子能力是基础，唯有优秀的算子能力才能保障单机和集群性能的卓越表现。
昇腾亲和优化策略	昇腾AI处理器基于高度并行的架构设计，在指令级并行和数据搬运效率方面进行了深度优化。例如，在数据访问单元设计上，昇腾的Cache Line大小达到512字节，显著高于业界常见的32字节水平，能够有效提升大粒度数据传输的带宽利用率，降低访存延迟。因此，在编程与算子优化过程中，建议尽可能对齐硬件特性，提升数据局部性，使每次内存操作处理更大规模的数据，从而充分发挥高带宽、大吞吐的优势。
模型设计策略	模型应尽可能多地利用矩阵运算，并充分复用AI Core（矩阵计算单元），以提升整体效率。

性能优化方向

性能优化目标可以从计算、通信、下发以及服务化调度四个维度进行优化，具体请参见表2。

表2 性能优化方向
维度	优化方向
计算	算子性能符合预期 (矩阵乘计算利用率，MTE搬运流水利用率等)。
	计算集中于AI Core，充分利用Cube资源。
	消除AI CPU算子和非亲和算子及算法逻辑优化。
	充分利用融合算子。
通信	通信带宽符合预期，未发生通信重传等问题。
	各卡通信时间相对均衡，无明显快慢卡问题。
	通算并行，计算尽可能掩盖通信时间。
下发	Free占比尽可能小。
	计算掩盖调度时间。
	IO/内存问题消除。
服务化推理	模型推理部分时延逼近纯模型性能。
	最小化Batch间CPU任务占比。
	调优调度参数和batch上限在时延约束下显存占满最大化吞吐。