前提条件

请确保完成使用前准备。
训练脚本在昇腾AI处理器上执行成功。

采集、解析并导出性能数据

修改训练脚本，开启性能数据采集开关。

通过session配置项profiling_mode、profiling_options开启Profiling数据采集，代码示例如下：

custom_op = config.graph_options.rewrite_options.custom_optimizers.add()
custom_op.name = "NpuOptimizer"
custom_op.parameter_map["use_off_line"].b = True
# 开启性能数据采集
custom_op.parameter_map["profiling_mode"].b = True
# 性能数据采集项
# output为采集结果输出路径
# task_trace：是否采集任务轨迹数据
# training_trace：是否采集迭代轨迹数据，采集迭代轨迹数据依赖fp_point（训练网络迭代轨迹正向算子的开始位置）和bp_point（反向算子的结束位置），可直接配置为空，由系统自动获取，采集异常时需要手工配置。
custom_op.parameter_map["profiling_options"].s = tf.compat.as_bytes('{"output":"/home/HwHiAiUser/profiling_output","training_trace":"on","task_trace":"on","fp_point":"","bp_point":"","aic_metrics":"PipeUtilization"}') 
config.graph_options.rewrite_options.remapping = RewriterConfig.OFF #关闭remap开关
with tf.Session(config=config) as sess:
    sess.run()

以上为最基本的采集项，如有其他采集需求，请参见使用TensorFlow框架接口采集。
Estimator和Keras脚本修改方式略有不同，手工迁移脚本和自动迁移脚本修改方式也略有不同，请参见使用TensorFlow框架接口采集。

重新执行训练脚本，将在训练过程中采集性能数据。
训练结束后，在output参数指定的目录下生成PROF_XXX文件夹用于存放采集到的原始性能数据，该数据需要经过msprof解析工具的解析才可查看。
执行msprof命令解析并导出性能数据。
```
msprof --export=on --output=/home/HwHiAiUser/profiling_output/PROF_XXX
```
其中“--output”为采集性能数据时设置的存储Profiling数据文件的路径。默认导出迭代数最多的Model ID的timeline和summary数据。
命令执行完成后，在output指定的目录下生成PROF_XXX目录，存放采集并解析后的性能数据，目录结构如图1所示。

图1 性能数据目录结构（仅为示例）
- data/sqlite文件夹为采集和解析的过程数据，一般无需关注。
- log文件夹为日志文件，一般无需关注。
- summary文件夹汇总了AI任务运行时的软硬件数据。
- timeline文件夹汇总了AI任务运行的时序信息。

进入summary和timeline目录，查看性能数据文件。

默认情况下采集到的文件请参考表1。

表1 msprof默认配置采集的性能数据文件
文件夹	文件名	说明
timeline	msprof*.json	timeline数据总表。
	acl_*.json	AscendCL接口调用时序。训练场景不生成。
	ai_stack_time_*.json	昇腾AI软件栈各组件（AscendCL，GE，Runtime，Task Scheduler等）运行时序。
	ge_*.json	GE接口耗时数据。
	step_trace_*.json	迭代轨迹数据，每轮迭代的耗时。
	task_time_*.json	Task Scheduler任务调度时序。
	thread_group_*.json	AscendCL，GE，Runtime组件耗时数据。
	ge_op_execute_*.json	算子下发各阶段耗时数据。当模型为动态Shape时自动采集并生成该文件。
summary	acl_*.csv	AscendCL API调用过程。训练场景不生成。
	acl_statistic_*.csv	AscendCL API数据统计。训练场景不生成。
	op_summary_*.csv	AI Core和AI CPU算子数据。
	op_statistic _*.csv	AI Core和AI CPU算子调用次数及耗时统计。
	step_trace_*.csv	迭代轨迹数据。
	task_time_*.csv	Task Scheduler任务调度信息。
	ai_stack_time_*.csv	昇腾AI软件栈各组件（AscendCL，GE，Runtime，Task Scheduler等）信息。
	fusion_op_*.csv	模型中算子融合前后信息。
	ge_op_execute_*.csv	算子下发各阶段耗时数据。当模型为动态Shape时自动采集并生成该文件。
	prof_rule_0.json	调优建议。
注：“*”表示{device_id}_{model_id}_{iter_id}，其中{device_id}表示设备ID，{model_id}表示模型ID，{iter_id}表示某轮迭代的ID。

timeline文件后缀为json，需要在Chrome浏览器中输入chrome://tracing，将文件拖到空白处进行打开，通过键盘上的快捷键（w：放大，s：缩小，a：左移，d：右移）。通过该文件可查看当前AI任务运行的时序信息，比如运行过程中接口调用时间线，如图2所示。
图2 查看timeline文件
summary文件后缀为csv，可直接打开查看。通过该文件可以看到AI任务运行时的软硬件数据，比如各算子在AI处理器软硬件上的运行耗时，通过字段排序等可以快速找出需要的信息，如图3所示。
图3 查看summary文件

性能分析

从上文我们可以看到，性能数据文件较多，分析方法也较灵活，以下介绍几个重要文件及分析方法。

通过step_trace_*.csv文件分析迭代轨迹数据信息，该文件记录了每轮迭代的耗时时间。
图4 step_trace_*.csv文件示例
主要字段为：
- Iteration Time：一轮迭代的计算时间，主要包含FP/BP和Grad Refresh两个阶段的时间。
- FP to BP Time：网络正向传播和反向传播的计算时间。
- Grad Refresh Bound：梯度更新时间。
- Data Aug Bound：两个相邻Iteration Time的间隔时间。
分析该文件的注意要点为：
1. 从上面示例可以看出，Model ID=1的数据明显与后续不同，为初始化图，而Model ID=11才为真正的迭代计算图，因此要选择Model ID=11的数据进行分析。另外，可以看到在Model ID=11，Iteration ID=1时，Data Aug Bound的时间很长，因为该阶段存在编译等操作，所以耗时较长，因此需要选择Model ID=11且Iteration ID>2的数据进行分析。
2. 从迭代2（Iteration ID = 2）开始，由于每个迭代执行的过程基本一样，可以看到每个迭代的耗时基本相同，因此可以任选一个迭代去分析。
3. 在具体分析和优化时，重点考虑计算耗时（FP to BP Time）、两个迭代间耗时（Data Aug Bound）是否有优化空间。
  - 优化计算耗时（FP to BP Time）时，可以参考op_statistic_*.csv文件和op_summary_*.csv文件分析高耗时算子，然后考虑通过降精度（Float32>Float16）等方式优化算子性能。
  - 优化迭代间耗时（Data Aug Bound），可以考虑优化数据预处理过程，将预处理下沉到Device侧和计算并行执行。
通过op_statistic_*.csv文件分析各类算子的调用总时间、总次数等，排查是否某类算子总耗时较长，进而分析这类算子是否有优化空间。
图5 op_statistic_*.csv文件示例

可以按照Total Time排序，找出哪类算子耗时较长。
通过op_summary_*.csv文件分析具体某个算子的信息和耗时情况，从而找出高耗时算子，进而分析该算子是否有优化空间。
图6 op_summary*.csv文件示例

Task Duration字段为算子耗时信息，可以按照Task Duration排序，找出高耗时算子；也可以按照Task Type排序，查看不同核（AI Core和AI CPU）上运行的高耗时算子。

TensorFlow训练/在线推理场景性能分析

前提条件

采集、解析并导出性能数据

性能分析