专家系统工具分析结果根据输入数据说明中所准备的文件进行分析,一次分析输出所有功能的结果,所以如果准备文件路径下未保存对应文件,则对应功能输出结果为空。
字段名 |
字段解释 |
---|---|
Model Performance Report |
模型性能分析报告。 |
Model Performance |
性能优劣,取值为Good/Bad。根据总体性能数据汇总计算得出。 |
Collection Info |
汇总信息。 |
Cube Throughput |
Cube吞吐量,单位为GOps。 |
Vector Throughput |
Vector吞吐量,单位为GOps。 |
Aicore Time |
AI Core执行时间,单位为us。 |
Task Duration |
任务执行时间,单位为us。 |
Avg BlockDim Usage |
平均BlockDim利用率,算子执行时的平均核心数,反映芯片利用情况。 |
Chip Utilization |
芯片利用率。数值达到80为优,显示为绿色;小于80则为差,显示为红色。根据Pipeline Bound的数值计算得出。 |
Pipeline Bound |
流水利用率。 |
Cube Ratio |
Cube利用率。 |
Vector Ratio |
Vector利用率。 |
Scalar Ratio |
Scalar利用率。 |
MTE1 Bound |
MTE1瓶颈。 |
MTE2 Bound |
MTE2瓶颈。 |
MTE3 Bound |
MTE3瓶颈。 |
Tiling Strategy |
内存读入量的数据切片策略。数值达到80为优,显示为绿色;小于80则为差,显示为红色。根据Memory Redundant的数值计算得出。 |
Memory Redundant |
内存冗余量。 |
Real Memory Input(GB) |
真实内存读入量,单位为GB。 |
Real Memory Output(GB) |
真实内存写出量,单位为GB。 |
Theory Memory Input(GB) |
理论内存读入量,单位为GB。 |
Theory Memory Output(GB) |
理论内存写出量,单位为GB。 |
Memory Read Redundant |
内存读入冗余系数。真实内存读入量/理论内存读入量。 |
Memory Write Redundant |
内存写出冗余系数。真实内存写出量/理论内存写出量。 |
字段名 |
字段解释 |
|
---|---|---|
Computational Graph Optimization |
计算图优化。算子融合推荐功能专家系统分析建议。分行展示可融合的算子。可单击栏目右上角See More...”查看具体的可融合算子。 |
|
UB fusion operators need to be optimized |
需要进行UB融合的算子。 |
|
UB Fusion Recommendation |
UB融合推荐。栏目下方展示可融合算子。 |
|
Fusion Type |
可融合算子类型。 |
|
Fusion Operator Detail |
可融合算子详细信息,算子名称之间以逗号隔开。 |
|
Fusion Operator Duration(us) |
可融合算子的执行时间。单位为us。 |
字段名 |
字段解释 |
|
---|---|---|
Fuse Cast/TransData with Conv needs to be optimized |
需要进行AIPP首层算子融合的算子。 |
|
AIPP Fusion Recommendation |
AIPP融合推荐。栏目下方展示可融合算子。 |
|
Fusion Operator Detail |
可融合算子详细信息,算子名称之间以逗号隔开。 |
|
Fusion Operator Duration(us) |
可融合算子的执行时间。单位为us。 |
字段名 |
字段解释 |
|
---|---|---|
TransData fusion operators need to be optimized. Total time of TransData task is xx(us), accounted for xx% of the total task. |
TransData算子需要优化。 TransData算子总时长xx(us),占所有任务时间占比xx%。 |
|
TransData Fusion Recommendation |
推荐消除的TransData算子。栏目下方展示可消除算子信息。 |
|
Reshape_Ops_Interrupts_Format |
Reshape_Ops_Interrupts_Format的优化建议。 |
|
Attempt to modify the model to avoid discontinuous operations. |
在不影响精度的情况下尽量避免非连续的操作。 |
|
Modify the model and use clone and continuous operations to break the combination of multiple non-consecutive operations. |
使用clone、contiguous将多个非连续操作的组合断开。 |
|
Other_Transform |
Other_Transform的优化建议。 |
|
It is a reasonable scenario that transdata operation exists, for example, 4D to 5D before Conv2D. |
这是TransData合理存在的场景,比如在Conv2D算子之前,需要把格式由4D转为5D。 |
|
Op Name |
算子名称。 |
|
Task Duration(us) |
算子执行持续时间。 |
|
Input Formats |
算子输入格式。 |
|
Output Formats |
算子输出格式。 |
字段名 |
字段解释 |
|
---|---|---|
L2 fusion operators need to be optimized |
L2融合算子需要优化。 |
|
L2Cache Fusion Recommendation |
L2Cache融合推荐。栏目下方展示可融合算子。 |
|
Fusion Operator Detail |
可融合算子详细信息,算子名称之间以逗号隔开。 |
|
Fusion Operator Duration(us) |
可融合算子的执行时间。单位为us。 |
字段名 |
字段解释 |
|
---|---|---|
Roofline |
基于Roofline模型的算子瓶颈识别与优化建议Top3算子信息。可单击栏目右上角See More...”查看详细结果信息。 |
|
Top Ops |
前三个算子。栏目下方展示Roofline模型的前三个可优化算子基本信息。 |
|
Op Name |
算子名称。 |
|
Aicore Time(us) |
AI Core运行时间,单位为us。 |
|
Bottleneck pathway |
瓶颈通路,即工作点最靠近roofline的通路。 |
|
Bottleneck Rate |
瓶颈率,即工作点占roofline上限的百分比。 |
|
Bottleneck Pipeline |
占比最高的流水。 |
|
Pipeline Rate |
流水最高占比。 |
|
Bound Type |
瓶颈分类。 |
|
Task Duration Ratio(%) |
Task耗时占比。 |
字段名 |
字段解释 |
|
---|---|---|
Model Graph Optimization |
模型优化建议。 |
|
Top AICPU Ops |
算子列表(按耗时从大到小排序)。 |
|
Operator name |
算子名。 |
|
Task Start Time |
任务开始时间。 |
|
Task Duration |
Task耗时。 |
|
Task Duration Ratio |
Task耗时占比。 |
|
Recommendations of aicpu operations optimization |
AI CPU算子优化建议。 |
字段名 |
字段解释 |
|
---|---|---|
Operating Environment |
操作环境。 |
|
Host Operating System |
Host侧操作系统。 |
|
Host Computer Name |
Host侧计算机名称。 |
|
CPU Name |
CPU 名称。 |
|
CPU Name Type |
CPU 名称类型。 |
|
Control CPU Type |
CtrlCPU类型。 |
|
Control CPU Number |
CtrlCPU数量。 |
|
TS CPU Number |
TS CPU数量。 |
|
AI CPU Number |
AI CPU数量。 |
Computational Graph Optimization页面输出结果包含算子融合推荐和TransData算子识别两个功能,本节介绍算子融合推荐功能。
上图中各区域展示信息如下:
图9中“For more case references, please visit here.”,提示有关算子融合推荐功能输出的结果分析可单击链接访问UB算子融合推荐分析样例。若在结果界面上单击超链接,需要预先在Linux服务器上安装FireFox火狐浏览器。
Computational Graph Optimization页面输出结果包含算子融合推荐和TransData算子识别两个功能,本节介绍TransData算子识别功能。
上图中各区域展示信息如下:
上图中各区域展示信息如下:
图11中第4点建议为“For more case references, please visit here.”,提示有关基于Roofline模型的算子瓶颈识别与优化建议功能输出结果分析可单击链接访问Roofline模型的优化分析样例。若在结果界面上单击超链接,需要预先在Linux服务器上安装FireFox火狐浏览器。
上图中各区域展示信息如下:
图12中2区域第5点建议为:“For more case references, please visit here.”,提示有关基于Timeline的AI CPU算子优化功能输出结果分析可单击链接访问基于Timeline的AI CPU算子优化分析样例。若在结果界面上单击超链接,需要预先在Linux服务器上安装FireFox火狐浏览器。