此处以示例模型的单step为例,进行调度耗时的分析,由于大模型的timeline数据较冗余,故在分析时将整体的一个step切分为前8段前反向计算结果、中16段前反向计算结果、后8段前反向计算结果三段,进行分段式分析。
host侧profiling统计本身也会引入较大开销,打开host profiling获取到的端到端时延比实际时延大很多,因此在统计调度时延时关闭host profiling,只打开device侧profiling,这样才能获取准确的调度开销。