概述
随着人工智能模型规模的不断扩大及应用场景的日益复杂,在昇腾AI计算平台上进行训练和部署时,面临着Host-Device协同效率不高、重要算子性能下滑、通信延迟增大、模型下发效率低等诸多挑战。因此,深度学习系统的性能瓶颈也从计算能力提升,转变为对硬件平台、软件栈、通信机制以及模型结构之间的协同效率进行全面优化的需求。
在此背景下,迫切需要构建一套系统性的性能分析与优化框架,涵盖性能数据采集、算子层面优化、调度策略调整、通信机制改善以及模型编译下发等多个环节。性能优化不仅成为提高昇腾产品竞争力和用户满意度的重要途径,也是推动昇腾软硬件平台不断进步的关键引擎。通过对训练与推理任务进行全流程、系统化的性能优化,可显著提升各种典型模型的执行效率,加快开发和迭代周期。
性能优化原则
性能优化原则需遵循算子优先、昇腾亲和优化策略、模型设计策略,具体请参见表1。
原则名称 |
说明 |
---|---|
算子优先 |
算子能力是基础,唯有优秀的算子能力才能保障单机和集群性能的卓越表现。 |
昇腾亲和优化策略 |
昇腾AI处理器基于高度并行的架构设计,在指令级并行和数据搬运效率方面进行了深度优化。例如,在数据访问单元设计上,昇腾的Cache Line大小达到512字节,显著高于业界常见的32字节水平,能够有效提升大粒度数据传输的带宽利用率,降低访存延迟。因此,在编程与算子优化过程中,建议尽可能对齐硬件特性,提升数据局部性,使每次内存操作处理更大规模的数据,从而充分发挥高带宽、大吞吐的优势。 |
模型设计策略 |
模型应尽可能多地利用矩阵运算,并充分复用AI Core(矩阵计算单元),以提升整体效率。 |