算子UT测试

简介

UT（Unit Test：单元测试）是开发人员进行单算子运行验证的手段之一，主要目的是：

测试算子代码的正确性，验证输入输出结果与设计的一致性。
UT侧重于保证算子程序能够正常运行，选取的场景组合应能覆盖算子代码的所有分支（一般情况下覆盖率要达到100%），从而降低不同场景下算子代码的编译失败率。

测试类的详细定义可参见CANN软件安装后文件存储路径下的“python/site-packages/op_test_frame/ut/ascendc_op_ut.py”文件。

约束说明

Atlas A2训练系列产品暂不支持UT测试功能。
CentOS 7.8 arm容器暂不支持算子实现代码的UT测试功能。
Ascend C动态shape算子暂不支持UT测试功能。
UT测试要求gcc版本为7.5.0及以上，若gcc版本不满足要求，请升级gcc版本。

生成UT测试用例定义文件

编写算子实现代码的UT Python测试用例，计算出算子执行结果，并取回结果和预期结果进行比较，来测试算子逻辑的正确性。

在算子工程UT测试目录下的test_add_custom_impl.py文件中，直接编写算子实现代码的UT Python测试用例。

# 导入UT测试类，可根据算子类型选择使用哪个测试类
from op_test_frame.ut.ascendc_op_ut import AscendcOpUt
from op_test_frame.common import precision_info

# 针对Atlas 训练系列产品、Atlas 推理系列产品，配置样例如下：
platforms = ["Ascendxxxyy",]   //需按照实际使用的型号配置
# 实例化UT测试用例，ut_case为UT测试框架关键字，不可修改；add_custom为算子的Type
ut_case = AscendcOpUt('add_custom') 

# 返回期望数据
def calc_expect_func_infer(x, y, z):
    z = x.get("value") + y.get("value")
    return [z, ]

# 添加测试用例，input和output为算子的输入和输出描述，case_name为测试用例的名称，请根据实际进行编辑
ut_case.add_precision_case(platforms, {'params': [
    {'dtype': 'float16', 'format': 'ND', 'ori_format': 'ND', 'ori_shape': [8, 2048], 'param_type': 'input',
     'shape': [8, 2048], 'distribution': 'normal', 'value_range': [-10, 10]},
    {'dtype': 'float16', 'format': 'ND', 'ori_format': 'ND', 'ori_shape': [8, 2048], 'param_type': 'input',
     'shape': [8, 2048], 'distribution': 'normal', 'value_range': [-10, 10]},
    {'dtype': 'float16', 'format': 'ND', 'ori_format': 'ND', 'ori_shape': [8, 2048], 'param_type': 'output',
     'shape': [8, 2048]}],
    "case_name": 'add_custom_1',
    "calc_expect_func": calc_expect_func_infer,
    "precision_standard": precision_info.PrecisionStandard(0.005, 0.005)
})

# 若定义多个用例，定义多个ut_case.add_precision_case函数
ut_case.add_precision_case(platforms, {'params': [
    {'dtype': 'float16', 'format': 'ND', 'ori_format': 'ND', 'ori_shape': [8, 2048], 'param_type': 'input',
     'shape': [8, 2048], 'distribution': 'normal', 'value_range': [-10, 10]},
    {'dtype': 'float16', 'format': 'ND', 'ori_format': 'ND', 'ori_shape': [8, 2048], 'param_type': 'input',
     'shape': [8, 2048], 'distribution': 'normal', 'value_range': [-10, 10]},
    {'dtype': 'float16', 'format': 'ND', 'ori_format': 'ND', 'ori_shape': [8, 2048], 'param_type': 'output',
     'shape': [8, 2048]}],
    "case_name": 'add_custom_2', 
    "calc_expect_func": calc_expect_func_infer,
    "precision_standard": precision_info.PrecisionStandard(0.005, 0.005)
})

首先导入UT测试类，用户可根据算子类型自行选择使用哪个UT测试类。
实例化测试用例，AscendcOpUt的使用方法可参见AscendcOpUt测试类定义。
如有调用add_precision_case接口，可参考add_precision_case接口在test_add_custom_impl.py文件进行“calc_expect_func”参数配置。
添加测试用例。
测试用例“params”中字段和字段取值范围需根据算子实现文件入口参数确定。输入的“ori_shape”和“ori_format”字段为可选字段，但若使用参数校验修饰器检验参数，“ori_shape”和“ori_format”字段必选。

若要与期望数据进行结果的比对，请使用add_precision_case接口。
- “ori_format”和“ori_shape”为可选字段，不带此字段时，默认Tensor的实现format和shape与原始format和shape一致。
- “format”、“dtype”和“shape”的数量需保持一致，配置的“shape”需要和“format”相匹配。
- “output”中参数取值的个数都要与“input”一致，否则测试用例生成会失败。
  例如：“input”的format支持的类型个数2，则“output”的format支持的类型个数也需要为2。
- 一个算子所有“input”中参数取值的个数都要一致，否则测试用例生成会失败。
  所有“input”中的dtype、shape、distribution和value_range的取值个数也需要保持一致。

AscendcOpUt测试类定义

函数原型
 AscendcOpUt(op_type)
功能说明
 定义Ascend C算子的测试类。
参数说明
 op_type：算子的类型。

add_precision_case接口

函数原型
 AscendcOpUt.add_precision_case(support_soc=None, case)
功能说明
 添加算子编译+精度测试的用例。

参数说明

support_soc：测试该用例中昇腾AI处理器的取值范围可从“$HOME/Ascend/ascend-toolkit/latest/compiler/data/platform_config”目录下查看，对应“*.ini”文件的名字即为可配置的昇腾AI处理器类型，请根据实际版本进行选择。support_soc支持的数据类型为str、tuple或者list，tuple或者list表示可以支持多个SoC。若配置为“all”或者“None”，表示支持所有的SoC。

case：该参数为dict类型，示例如下：

{
    "params": [
        {
          "shape": (32, 64),
          "ori_shape": (32, 64),
          "format": "ND",
          "ori_format": "ND",
          "dtype": "float16",
          "param_type": "input"
        },
        {
          "shape": (32, 64),
          "ori_shape": (32, 64),
          "format": "ND",
          "ori_format": "ND",
          "dtype": "float16",
          "param_type": "output"
        }
    ],
    "case_name": "test_add_case_1",
    "calc_expect_func": np_add     #一个函数
    "precision_standard": precision_info.PrecisionStandard(0.001, 0.001)  #可选字段
}

该dict中key字段含义如表1所示：

表1 key字段配置信息
参数	值
params	该字段在测试用例运行时透传给算子接口。该字段中的参数应与算子接口的参数顺序一致。若输入的参数为tensor，可选择如下字段传递。 shape：tensor的形状 ori_shape：tensor的原始形状 format：tensor的格式 ori_format：tensor的原始格式 param_type：tensor类型 dtype：tensor的数据类型 distribution：tensor的分布方式 value_range：tensor取值范围，默认值为[0.1, 1.0] 若输入的参数为非tensor，请传递实际参数值。若输入的参数为空，请传递None。
case_name	测试用例的名称，可选参数。若不设置，测试框架会自动生成用例名称，生成规则如下： test_{op_type}_auto_case_name_{case_count} 例如： test_Add_auto_case_name_1
calc_expect_func	期望结果生成函数。
precision_standard	自定义精度标准，取值为：(rtol, atol, Max_atol)。 rtol：相对容忍率 atol：绝对容忍率 Max_atol：（可选）最大容忍率说明：若不配置此字段，按照如下默认精度与期望数据进行比对：数据类型为float16时：双千分之一，(0.001, 0.001, 0.1)，即每个数据之间的误差不超过千分之一，误差超过千分之一的数据总和不超过总数据数的千分之一。数据类型为float32时：双万分之一，(0.0001, 0.0001, 0.01)，即每个数据之间的误差不超过万分之一，误差超过万分之一的数据总和不超过总数据数的万分之一。数据类型为int8或uint8时：(0.001, 1, 1)，即每个数据之间的误差不超过一，误差超过一的数据总和不超过总数据数的千分之一。

执行UT测试用例

已参考环境准备，完成驱动和CANN软件的安装，配置CANN软件所需基本环境变量。
```
. ${install_path}/set_env.sh
```
使用op_ut_run工具运行算子实现文件的UT测试用例。
进入op_ut_run工具所在目录执行如下命令，详细参数说明请参见表2。
```
cd /usr/local/Ascend/ascend-toolkit/latest/python/site-packages/bin
./op_ut_run --case_files=xx/test_add_custom_impl.py --data_path=./data --simulator_data_path=./model --simulator_lib_path=/usr/local/Ascend/ascend-toolkit/latest/toolkit/tools/simulator --simulator_mode=ca --soc_version=Ascend910xx --case_name=add_custom_1 --ascendc_op_path=xx/add_custom.cpp --block_dim=8
```
- root用户安装toolkit包默认路径为“/usr/local/Ascend”，请根据实际环境进行替换。
- --case_files：指定test_*_impl.py测试用例定义文件所在路径，请根据实际修改。
- --data_path：指定保存测试用例数据.bin文件所在路径，请根据实际修改。
- --simulator_data_path：指定生成dump数据文件的目录。
- --simulator_lib_path：指定配置仿真环境运行依赖所在路径。
- --simulator_mode：指定测试用例的运行环境，可配置为pv（Simulator Function，即功能仿真环境）或ca（Simulator Performance，即性能仿真环境）。
- --soc_version：昇腾AI处理器的版本。
  
  如果无法确定具体的<soc_version>，则在安装昇腾AI处理器的服务器执行npu-smi info命令进行查询，在查询到的“Name”前增加Ascend信息，例如“Name”对应取值为xxxyy，实际配置的<soc_version>值为Ascendxxxyy。
- --case_name：测试用例test_add_custom_impl.py文件中“case_name”对应的配置。
- --ascendc_op_path：指定*.cpp算子实现文件所在路径，请根据实际修改，可参考实现样例。
- --block_dim：指定算子核函数运行所需的核数，默认值为“1”。
执行完成后，屏显信息显示此次用例运行的情况，如图1所示。

图1 运行结果

查看生成的dump文件，目录结构示例如下：

├──{model}      //默认目录或自定义数据存放目录
│   └── ca     //simulator_mode配置为ca时生成此目录
│       └── add_custom     //根据op_type生成     
│           └── add_custom_pre_static_test_Add_auto_case_name_1     //以{op_type}_pre_static_test_{case_name}命名的目录下存放的dump文件
│               ├── core0_bank_conflict_log.dump
│               ├── core0_biu_log.dump
│               ├── core0_biu_rd_data_log.dump
│               ├── core0_bp_log.dump
│               ├── core0_buffer_log.dump
│               ├── core0_cube_log.dump
│               ├── core0_fmd_log.dump
│               ├── core0_hwts_log.dump
│               ├── core0_icache_log.dump
│               ├── core0_instr_log.dump
│               ├── core0_issque_log.dump
│               ├── core0_lsu_log.dump
│               ├── core0_mte_biu_req_log.dump
│               ├── core0_mte_status_log.dump
│               ├── core0_rd_buffer_log.dump
│   └── pv      //simulator_mode配置为pv时生成此目录
│       └── add_custom      ///根据op_type生成 
│           └──add_custom_pre_static_test_Add_auto_case_name_1     //以{op_type}_pre_static_test_{case_name}命名的目录下存放的dump文件
│               ├── core0_biu_log.dump
│               ├── core0_biu_wr_log.dump
│               ├── core0_buf_log.dump
│               ├── core0_cube_log.dump
│               ├── core0_hwts_log.dump
│               ├── core0_instr_popped_log.dump
│               ├── core0_l0a_rd_log.dump
│               ├── core0_l0b_wr_log.dump
│               ├── core0_l0c_rd_log.dump
│               ├── core0_l0c_wr_log.dump
│               ├── core0_l1_rd_log.dump
│               ├── core0_l1_wr_log.dump
│               ├── core0_mte_log.dump
│               ├── core0_scalar_buf_rd_log.dump
│               ├── core0_ub_rd_log.dump

查看算子仿真流水图

已获取可供解析的dump文件，具体可参见步骤4。
使用msopgen工具生成算子仿真流水图文件。
进入msopgen工具所在目录执行如下命令，详细参数说明请参见表1。
```
cd /usr/local/Ascend/ascend-toolkit/latest/python/site-packages/bin
./msopgen sim -c core0 -d xx/{model}/ca/add_custom/add_custom_pre_static_add_custom -out ./output_data -subc cubecore0
```
- root用户安装toolkit包默认路径为“/usr/local/Ascend”，请根据实际环境进行替换。
- -c：指定待解析dump文件的core id，如core0。
- -d：指定在性能仿真环境（即“simulator_mode”参数设置为ca）生成的dump文件所在路径，请根据实际修改。
- -out：指定目录下生成算子仿真流水图文件dump2trace_core0.json。
- -subc：指定待解析dump文件的subcore id，如文件名为core0.cubecore0.instr_log.dump，“cubecore0”即为subcore id。（仅Atlas A2训练系列产品需配置该参数）

查看算子仿真流水图。

可以在Chrome浏览器中输入“chrome://tracing”地址，将获取到的dump2trace_core0.json文件拖到空白处打开，通过键盘上的快捷键（w：放大，s：缩小，a：左移，d：右移）进行查看，如下图所示，关键字段如表2所示。

图2 dump2trace_core0.json文件
点击放大

表2 字段说明
字段名	字段含义
VECTOR	向量运算单元。
SCALAR	标量运算单元。
MTE1	数据搬运流水，数据搬运方向为：L1 ->{L0A/L0B, UBUF}。
MTE2	数据搬运流水，数据搬运方向为：{DDR/GM, L2} ->{L1, L0A/B, UBUF}。
MTE3	数据搬运流水，数据搬运方向为：UBUF -> {DDR/GM, L2, L1}。
FLOWCTRL	控制流指令。
CUBE	矩阵乘运算单元。
ICmiss	未命中icache。

父主题： 算子开发（进阶篇）