问题概述 模型从外部设备迁移至昇腾设备上进行推理时,可能会遇到性能问题,与训练常见性能问题场景不同,推理常见的性能问题场景为开箱性能优化场景, 即用户在使用昇腾设备进行模型推理时,发现性能差(劣于其他产品或者发现模型推理吞吐量低)。 可能存在的问题为计算问题和调度问题。 计算问题某些卡的计算时间明显超出正常范围,这张卡承担了过于繁重的计算任务,可能是处理的数据量太大,或者模型计算的复杂度太高。 调度问题计算卡的空闲时间占比很高,说明存在Host侧至Device侧的下发异常,可能是CPU能力瓶颈,或者模型运行期间存在某些后台任务抢占CPU资源。 父主题: 性能问题