op_summary（AI Core、AI Vector Core和AI CPU算子数据）

AI Core和AI CPU算子数据无timeline信息，summary信息在op_summary_*.csv文件汇总，用于统计算子的具体信息和耗时情况。

op_summary_*.csv文件说明

op_summary_*.csv文件内容格式示例如下。

图1 op_summary（仅为示例）

Task Duration字段为算子耗时信息，可以按照Task Duration排序，找出高耗时算子；也可以按照Task Type排序，查看AI Core或AI CPU上运行的高耗时算子。

MatMul算子的输入a、b矩阵满足：内轴大于1000，MAC理论计算耗时大于50us，内轴大小非516B对齐时，MatMul会转化为MIX算子，此时op_summary.csv中的MatMul算子数量减少且Task Type由原来的AI_Core转变为MIX_AIC。（Atlas A2训练系列产品/Atlas 800I A2推理产品）
由于Task Type为HCCL类型的算子通常包含一系列通信任务，每个通信任务均有独立的Task ID和Stream ID等标识，此处不作展示，因此该类算子的Task ID和Stream ID为N/A。
算子的输入维度Input Shapes取值为空，即表示为“; ; ; ;”格式时，表示当前输入的为标量，其中“;”为每个维度的分隔符。算子的输出维度同理。
工具会检测算子溢出情况，若发现算子溢出，则提示如下告警，此时该算子的计算结果不可信。
图2 算子溢出告警

op_summary_*.csv文件根据参数取值不同，文件呈现结果不同。完整字段如下。

表1 公共字段说明
字段名	字段解释
Device_id	设备ID。
Model Name	模型名称。如果Model Name值为空，则可能为获取的数据中该值为空。（默认情况下或单算子场景不显示该字段）
Model ID	模型ID。
Task ID	Task任务的ID。
Stream ID	该Task所处的Stream ID。
Infer ID	标识第几轮推理数据。（默认情况下或单算子场景不显示该字段）
Op Name	算子名称。
OP Type	算子类型。task_time为l0时，不采集该字段，显示为N/A。
OP State	算子的动静态信息，dynamic表示动态算子，static表示静态算子，HCCL算子无该状态显示为N/A，该字段仅在--task-time=l1情况下上报，--task-time=l0时显示为N/A。
Task Type	执行该Task的加速器类型，包含AI_CORE、AI_VECTOR_CORE、AI_CPU等。task_time为l0时，不采集该字段，显示为N/A。
Task Start Time(us)	Task开始时间，单位us。
Task Duration(us)	Task耗时，包含调度到加速器的时间、加速器上的执行时间以及结束响应时间，单位us。
Task Wait Time(us)	上一个Task的结束时间与当前Task的开始时间间隔，单位us。
Block Dim	Task运行切分数量，对应Task运行时核数。task_time为l0时，不采集该字段，显示为0。
HF32 Eligible	标识是否使用HF32精度标记，YES表示使用，NO表示未使用。
Mix Block Dim	Atlas A2训练系列产品/Atlas 800I A2推理产品，部分算子同时在AI Core和Vector Core上执行，主加速器的Block Dim在Block Dim字段描述，从加速器的Block Dim在本字段描述。task_time为l0时，不采集该字段，显示为N/A。
Input Shapes	算子的输入维度。task_time为l0时，不采集该字段，显示为N/A。
Input Data Types	算子输入数据类型。task_time为l0时，不采集该字段，显示为N/A。
Input Formats	算子输入数据格式。task_time为l0时，不采集该字段，显示为N/A。
Output Shapes	算子的输出维度。task_time为l0时，不采集该字段，显示为N/A。
Output Data Types	算子输出数据类型。task_time为l0时，不采集该字段，显示为N/A。
Output Formats	算子输出数据格式。task_time为l0时，不采集该字段，显示为N/A。
Context ID	Context ID。task_time为l0时，不采集该字段，显示为N/A。（Atlas A2训练系列产品/Atlas 800I A2推理产品）
aiv_time(us)	当所有的Block被同时调度，且每个Block的执行时长相等时，该Task在AI Vector Core上的理论执行时间，单位us。通常情况下，不同的Block开始调度时间略有差距，故该字段值略小于Task在AI Vector Core上的实际执行时间。（Atlas A2训练系列产品/Atlas 800I A2推理产品）
aicore_time(us)	当所有的Block被同时调度，且每个Block的执行时长相等时，该Task在AI Core上的理论执行时间，单位us。通常情况下，不同的Block开始调度时间略有差距，故该字段值略小于Task在AI Core上的实际执行时间。手动调频、功耗超出默认功耗值时动态调频以及Atlas 300V/Atlas 300I Pro情况下该数据不准确，不建议参考。
total_cycles	该Task在AI Core上执行的cycle总数，由所有的Block的执行cycle数累加而成。
寄存器值	自定义采集的寄存器的数值。由--aic-metrics配置自定义寄存器控制。

下列字段为Atlas 200/300/500 推理产品Atlas 推理系列产品Atlas 训练系列产品Atlas 200I/500 A2推理产品支持。

表2 字段说明（PipeUtilization）
字段名	字段含义
vec_time(us)	vec类型指令（向量类运算指令）耗时，单位us。
vec_ratio	vec类型指令（向量类运算指令）的cycle数在total cycle数中的占用比。
mac_time(us)	cube类型指令（矩阵类运算指令）耗时，单位us。
mac_ratio	cube类型指令（矩阵类运算指令）的cycle数在total cycle数中的占用比。
scalar_time(us)	scalar类型指令（标量类运算指令）耗时，单位us。
scalar_ratio	scalar类型指令（标量类运算指令）的cycle数在total cycle数中的占用比。
mte1_time(us)	mte1类型指令（L1->L0A/L0B搬运类指令）耗时，单位us。
mte1_ratio	mte1类型指令（L1->L0A/L0B搬运类指令）的cycle数在total cycle数中的占用比。
mte2_time(us)	mte2类型指令（DDR->AICORE搬运类指令）耗时，单位us。
mte2_ratio	mte2类型指令（DDR->AICORE搬运类指令）的cycle数在total cycle数中的占用比。
mte3_time(us)	mte3类型指令（AICORE->DDR搬运类指令）耗时，单位us。
mte3_ratio	mte3类型指令（AICORE->DDR搬运类指令）的cycle数在total cycle数中的占用比。
icache_miss_rate	icache是为instruction预留的L2 Cache，icache_miss_rate数值高代表AI Core读取指令的效率低。
memory_bound	用于识别AICore执行算子计算过程是否存在Memory瓶颈，由mte2_ratio/max(mac_ratio, vec_ratio)计算得出。计算结果小于1，表示没有Memory瓶颈；计算结果大于1 则表示AI Core在执行Task过程中大部分时间都在做内存搬运而不是计算，且数值越大Memory瓶颈越严重。
cube_utilization(%)	cube算子利用率，查看cube算子在单位时间内的运算次数是否达到理论上限，越接近于100%则表示越接近理论上限。计算公式：cube_utilization=total_cycles / (freq * core_num * task_duration)。

表3 字段说明（ArithmeticUtilization）
字段名	字段含义
mac_fp16_ratio	cycle数在total cycle数中的占用比。
mac_int8_ratio	cube int8类型指令的cycle数在total cycle数中的占用比。
vec_fp32_ratio	vec fp32类型指令的cycle数在total cycle数中的占用比。
vec_fp16_ratio	vec fp16类型指令的cycle数在total cycle数中的占用比。
vec_int32_ratio	vec int32类型指令的cycle数在total cycle数中的占用比。
vec_misc_ratio	vec misc类型指令的cycle数在total cycle数中的占用比。
cube_fops	cube类型的浮点运算数，即计算量，可用于衡量算法/模型的复杂度，其中fops表示floating point operations，缩写为FLOPs。
vector_fops	vector类型浮点运算数，即计算量，可用于衡量算法/模型的复杂度，其中fops表示floating point operations，缩写为FLOPs。

表4 字段说明（Memory）
字段名	字段含义
ub_read_bw(GB/s)	ub读带宽速率，单位GB/s。
ub_write_bw(GB/s)	ub写带宽速率，单位GB/s。
l1_read_bw(GB/s)	l1读带宽速率，单位GB/s。
l1_write_bw(GB/s)	l1写带宽速率，单位GB/s。
l2_read_bw	l2读带宽速率，单位GB/s。仅Atlas 200/300/500 推理产品支持。
l2_write_bw	l2写带宽速率，单位GB/s。仅Atlas 200/300/500 推理产品支持。
main_mem_read_bw(GB/s)	主存储器读带宽速率，单位GB/s。
main_mem_write_bw(GB/s)	主存储器写带宽速率，单位GB/s。

表5 字段说明（MemoryL0）
字段名	字段含义
l0a_read_bw(GB/s)	l0a读带宽速率，单位GB/s。
l0a_write_bw(GB/s)	l0a写带宽速率，单位GB/s。
l0b_read_bw(GB/s)	l0b读带宽速率，单位GB/s。
l0b_write_bw(GB/s)	l0b写带宽速率，单位GB/s。
l0c_read_bw(GB/s)	vector从l0c读带宽速率，单位GB/s。
l0c_write_bw(GB/s)	vector向l0c写带宽速率，单位GB/s。
l0c_read_bw_cube(GB/s)	cube从l0c读带宽速率，单位GB/s。
l0c_write_bw_cube(GB/s)	cube向l0c写带宽速率，单位GB/s。

表6 字段说明（MemoryUB）
字段名	字段含义
ub_read_bw_mte(GB/s)	mte从ub读带宽速率，单位GB/s。仅Atlas 200/300/500 推理产品支持。
ub_write_bw_mte(GB/s)	mte向ub写带宽速率，单位GB/s。仅Atlas 200/300/500 推理产品支持。
ub_read_bw_vector(GB/s)	vector从ub读带宽速率，单位GB/s。
ub_write_bw_vector(GB/s)	vector向ub写带宽速率，单位GB/s。
ub_read_bw_scalar(GB/s)	scalar从ub读带宽速率，单位GB/s。
ub_write_bw_scalar(GB/s)	scalar向ub写带宽速率，单位GB/s。

表7 字段说明（ResourceConflictRatio）
字段名	字段含义
vec_bankgroup_cflt_ratio	vec_bankgroup_stall_cycles类型指令执行cycle数在total cycle数中的占用比。由于vector指令的block stride的值设置不合理，造成bankgroup冲突。
vec_bank_cflt_ratio	vec_bank_stall_cycles类型指令执行cycle数在total cycle数中的占用比。由于vector指令操作数的读写指针地址不合理，造成bank冲突。
vec_resc_cflt_ratio	vec_resc_cflt_ratio类型指令执行cycle数在total cycle数中的占用比。当算子中涉及多个计算单元，应该尽量保证多个单元并发调度。当某个计算单元正在执行计算，但算子逻辑仍然往该单元下发指令，就会造成整体的算力没有得到充分应用。

下列字段仅Atlas 200I/500 A2推理产品支持。

表8 字段说明（L2Cache）
字段名	字段含义
write_cache_hit	写cache命中的次数。
write_cache_miss_allocate	写cache缺失后重新分配缓存的次数。
r*_read_cache_hit	读r*通道cache命中次数。
r*_read_cache_miss_allocate	读r*通道cache缺失后重新分配的次数。

表9 字段说明（PipelineExecuteUtilization）
字段名	字段含义
vec_exe_time(us)	vec类型指令（向量类运算指令）耗时，单位us。
vec_exe_ratio	vec类型指令（向量类运算指令）的cycle数在total cycle数中的占用比。
mac_exe_time(us)	cube类型指令（fp16及s16矩阵类运算指令）耗时，单位us。
mac_exe_ratio	cube类型指令（fp16及s16矩阵类运算指令）的cycle数在total cycle数中的占用比。
scalar_exe_time(us)	scalar类型指令（标量类运算指令）耗时，单位us。
scalar_exe_ratio	scalar类型指令（标量类运算指令）的cycle数在total cycle数中的占用比。
mte1_exe_time(us)	mte1类型指令（L1->L0A/L0B搬运类指令）耗时，单位us。
mte1_exe_ratio	mte1类型指令（L1->L0A/L0B搬运类指令）的cycle数在total cycle数中的占用比。
mte2_exe_time(us)	mte2类型指令（DDR->AICORE搬运类指令）耗时，单位us。
mte2_exe_ratio	mte2类型指令（DDR->AICORE搬运类指令）的cycle数在total cycle数中的占用比。
mte3_exe_time(us)	mte3类型指令（AICORE->DDR搬运类指令）耗时，单位us。
mte3_exe_ratio	mte3类型指令（AICORE->DDR搬运类指令）的cycle数在total cycle数中的占用比。
fixpipe_exe_time(us)	fixpipe类型指令（L0C->OUT/L1搬运类指令）耗时，单位us。
fixpipe_exe_ratio	fixpipe类型指令（L0C->OUT/L1搬运类指令）的cycle数在total cycle数中的占用比。
memory_bound	用于识别AICore执行算子计算过程是否存在Memory瓶颈，由mte2_ratio/max(mac_ratio, vec_ratio)计算得出。计算结果小于1，表示没有Memory瓶颈；计算结果大于1 则表示AI Core在执行Task过程中大部分时间都在做内存搬运而不是计算，且数值越大Memory瓶颈越严重。

下列字段仅Atlas A2训练系列产品/Atlas 800I A2推理产品支持。

**表10** 字段说明（PipeUtilization）
字段名	字段含义
ai*_vec_time(us)	vec类型指令（向量类运算指令）耗时，单位us。
ai*_vec_ratio	vec类型指令（向量类运算指令）的cycle数在total cycle数中的占用比。
ai*_mac_time(us)	cube类型指令（矩阵类运算指令）耗时，单位us。
ai*_mac_ratio	cube类型指令（矩阵类运算指令）的cycle数在total cycle数中的占用比。
ai*_scalar_time(us)	scalar类型指令（标量类运算指令）耗时，单位us。
ai*_scalar_ratio	scalar类型指令（标量类运算指令）的cycle数在total cycle数中的占用比。
ai*_fixpipe_time(us)	fixpipe类型指令（L0C->OUT/L1搬运类指令）耗时，单位us。
ai*_fixpipe_ratio	fixpipe类型指令（L0C->OUT/L1搬运类指令）的cycle数在total cycle数中的占用比。
ai*_mte1_time(us)	mte1类型指令（L1->L0A/L0B搬运类指令）耗时，单位us。
ai*_mte1_ratio	mte1类型指令（L1->L0A/L0B搬运类指令）的cycle数在total cycle数中的占用比。
ai*_mte2_time(us)	mte2类型指令（片上内存->AICORE搬运类指令）耗时，单位us。
ai*_mte2_ratio	mte2类型指令（片上内存->AICORE搬运类指令）的cycle数在total cycle数中的占用比。
ai*_mte3_time(us)	mte3类型指令（AICORE->片上内存搬运类指令）耗时，单位us。
ai*_mte3_ratio	mte3类型指令（AICORE->片上内存搬运类指令）的cycle数在total cycle数中的占用比。
ai*_icache_miss_rate	icache是为instruction预留的L2 Cache，icache_miss_rate数值高代表AI Core读取指令的效率低。
cube_utilization(%)	cube算子利用率，查看cube算子在单位时间内的运算次数是否达到理论上限，越接近于100%则表示越接近理论上限。计算公式：cube_utilization=total_cycles / (freq * core_num * task_duration)。

**表11** 字段说明（ArithmeticUtilization）
字段名	字段含义
ai*_mac_fp16_ratio	cycle数在total cycle数中的占用比。
ai*_mac_int8_ratio	cube int8类型指令的cycle数在total cycle数中的占用比。
ai*_vec_fp32_ratio	vec fp32类型指令的cycle数在total cycle数中的占用比。
ai*_vec_fp16_ratio	vec fp16类型指令的cycle数在total cycle数中的占用比。
ai*_vec_int32_ratio	vec int32类型指令的cycle数在total cycle数中的占用比。
ai*_vec_misc_ratio	vec misc类型指令的cycle数在total cycle数中的占用比。
ai*_cube_fops	cube类型的浮点运算数，即计算量，可用于衡量算法/模型的复杂度，其中fops表示floating point operations，缩写为FLOPs。
ai*_vector_fops	vector类型浮点运算数，即计算量，可用于衡量算法/模型的复杂度，其中fops表示floating point operations，缩写为FLOPs。

**表12** 字段说明（Memory）
字段名	字段含义
ai*_ub_read_bw(GB/s)	ub读带宽速率，单位GB/s。
ai*_ub_write_bw(GB/s)	ub写带宽速率，单位GB/s。
ai*_l1_read_bw(GB/s)	l1读带宽速率，单位GB/s。
ai*_l1_write_bw(GB/s)	l1写带宽速率，单位GB/s。
ai*_main_mem_read_bw(GB/s)	主存储器读带宽速率，单位GB/s。
ai*_main_mem_write_bw(GB/s)	主存储器写带宽速率，单位GB/s。

**表13** 字段说明（MemoryL0）
字段名	字段含义
ai*_l0a_read_bw(GB/s)	l0a读带宽速率，单位GB/s。
ai*_l0a_write_bw(GB/s)	l0a写带宽速率，单位GB/s。
ai*_l0b_read_bw(GB/s)	l0b读带宽速率，单位GB/s。
ai*_l0b_write_bw(GB/s)	l0b写带宽速率，单位GB/s。
ai*_l0c_read_bw(GB/s)	vector从l0c读带宽速率，单位GB/s。
ai*_l0c_write_bw(GB/s)	vector向l0c写带宽速率，单位GB/s。
ai*_l0c_read_bw_cube(GB/s)	cube从l0c读带宽速率，单位GB/s。
ai*_l0c_write_bw_cube(GB/s)	cube向l0c写带宽速率，单位GB/s。
注：采集AI Vector Core的MemoryL0性能指标时，采集到的数据都为0。

**表14** 字段说明（MemoryUB）
字段名	字段含义
ai*_ub_read_bw_vector(GB/s)	vector从ub读带宽速率，单位GB/s。
ai*_ub_write_bw_vector(GB/s)	vector向ub写带宽速率，单位GB/s。
ai*_ub_read_bw_scalar(GB/s)	scalar从ub读带宽速率，单位GB/s。
ai*_ub_write_bw_scalar(GB/s)	scalar向ub写带宽速率，单位GB/s。

**表15** 字段说明（ResourceConflictRatio）
字段名	字段含义
ai*_vec_bankgroup_cflt_ratio	vec_bankgroup_stall_cycles类型指令执行cycle数在total cycle数中的占用比。由于vector指令的block stride的值设置不合理，造成bankgroup冲突。
ai*_vec_bank_cflt_ratio	vec_bank_stall_cycles类型指令执行cycle数在total cycle数中的占用比。由于vector指令操作数的读写指针地址不合理，造成bank冲突。
ai*_vec_resc_cflt_ratio	vec_resc_cflt_ratio类型指令执行cycle数在total cycle数中的占用比。当算子中涉及多个计算单元，应该尽量保证多个单元并发调度。当某个计算单元正在执行计算，但算子逻辑仍然往该单元下发指令，就会造成整体的算力没有得到充分应用。

**表16** 字段说明（L2Cache）
字段名	字段含义
ai*_write_cache_hit	写cache命中的次数。
ai*_write_cache_miss_allocate	写cache缺失后重新分配缓存的次数。
ai_r_read_cache_hit	读r*通道cache命中次数。
ai_r_read_cache_miss_allocate	读r*通道cache缺失后重新分配的次数。

父主题： json和csv文件性能数据说明