内存应用方式优化 取消不必要的内存拷贝。在服务器+NPU插卡(如Atlas 300I Pro)应用场景下,NPU芯片工作在EP(End point)模式,服务器主机内存与NPU设备内存间需要进行数据同步。在Atlas 200I SoC A1核心板应用场景下,NPU芯片工作在RC(Root Complex)模式,OS运行在NPU芯片内,无需进行主机内存与设备内存的数据同步。取消主机内存与设备内存的数据同步,可以简化软件流程、提升软件性能。 图1 取消内存拷贝 如图1,在Atlas 200I SoC A1核心板上运行的图中红框部分可去掉,省略主机侧内存申请、释放、同步的操作,保留绿框部分。 DVPP内存分配优化。RC模式下使用hi_mpi_dvpp_malloc接口性能差,可以直接调用标准库malloc接口,申请device内存。malloc接口在SoC服务器上性能远高于hi_mpi_dvpp_malloc接口,达到性能提升的效果。 可参考《CANN 应用软件开发指南 (C&C++)CANN 6.3.RC1 应用软件开发指南 (C&C++)》。 父主题: 软件优化