CPU孪生调试主要基于用户输入生成编译所需的二进制bin文件,然后自动执行算子编译和运行,该阶段支持的调测项如表1所示。
功能名称 |
功能说明 |
---|---|
自动精度比对 |
若用户配置了标杆数据(golden数据),工具会自动将实际调测运行结果与标杆数据进行精度比对。 |
printf/PRINTF功能 |
支持屏显打印Scalar数据,如常量、字符串等信息,功能与NPU上板打印类似,不再赘述,具体参考printf/PRINTF功能。 |
DumpTensor功能 |
支持dump Tensor数据,功能和产物与NPU上板dump功能类似,不再赘述,具体参考DumpTensor功能。 |
DumpAccChkPoint功能 |
支持dump偏移位置的Tensor数据,功能和产物与NPU上板dump功能类似,不再赘述,具体参考DumpAccChkPoint功能。 |
assert功能 |
支持屏显打印断言,其功能与NPU上板assert类似,不再赘述,具体参考assert功能。 |
通过--npucheck或CpuOptions.npucheck开启,提供CPU内存校验和异常检测功能。 |
通过命令行进行CPU调测的关键步骤如下,详细样例参考核函数CPU孪生调试。
ascendebug kernel --backend cpu --json-file ${op_config_json_file} --repo-type ${repo_type} --chip-version ${chip_version} --core-type ${core_type} --install-path ${cann_install_path} --work-dir ${work_dir} ... {其他参数}
CPU调测涉及的所有参数可通过ascendebug kernel -h或ascendebug kernel --help查看。
通过API进行CPU调测的关键步骤如下,详细样例参考核函数CPU孪生调试。
本步骤仅适用于没有Tiling Info文件的场景,需调用Tiling调测API生成Tiling Info。
无论是命令行方式或API方式,CPU调测结果存放在${root}/${work_dir}/cpu路径下,其中${root}表示当前操作路径,${work_dir}表示调测工作空间,默认为/debug_workspace/${op_type}目录,${op_type}为算子名。目录结构示例如下:
├ ${op_type} // 算子名 ├── cpu │ ├── build // 存放CPU编译生成的中间文件 │ ├── xxx_cpu // CPU编译生成的算子可执行程序 │ ├── npuchk // npucheck结果存放路径 │ ├── auto_gen_${op_kernel_type}_kernel_${block_num}_${sblock_num}_${kernel_type}_npuchk.log │ ├── npu_chk_res.log │ ├── output // 存放CPU编译运行的输出文件及精度比对结果 │ ├── y.bin // 运行输出原始数据 │ ├── y.txt // 精度比对结果文件 │ ├── src // 存放CPU编译生成的临时代码文件 │ ├── CMakeLists.txt │ ├── data_definition.txt │ ├── add_custom_main.cpp │ ├── add_custom_tiling.h │ ├── _gen_kernel_${op_type}.cpp │ ├── dump // dump文件落盘目录 │ ├── PARSER_${timestamp} │ ├── dump_data │ ├──0 // core number │ ├──index_1 // index是dump接口的desc唯一标识值 │ ├──core_0_index_1_loop_0.bin │ ├──core_0_index_1_loop_0.txt
data_cmp mean is -1.41e-05 data_gd mean is -1.41e-05 split_count:2359296.0; max_diff_hd:0.1; --------------------------------------------------------------------------------------- Loop ExpectOut RealOut FpDiff RateDiff --------------------------------------------------------------------------------------- 00000001 0.0395813 0.0395813 0.0000000 0.0000000 00000002 0.0160980 0.0160980 0.0000000 0.0000000 00000003 -0.0443420 -0.0443420 0.0000000 0.0000000 00000004 -0.0847778 -0.0847778 0.0000000 0.0000000 00000005 -0.0066605 -0.0066605 0.0000000 0.0000000 00000006 0.0880737 0.0880737 0.0000000 0.0000000 00000007 0.0848389 0.0848389 0.0000000 0.0000000 00000008 0.1083374 0.1083374 0.0000000 0.0000000 00000009 0.0838623 0.0838623 0.0000000 0.0000000 00000010 0.0887451 0.0887451 0.0000000 0.0000000 00000011 0.0572205 0.0572205 0.0000000 0.0000000 00000012 0.0741577 0.0741577 0.0000000 0.0000000 00000013 -0.0762329 -0.0762329 0.0000000 0.0000000 00000014 -0.0957642 -0.0957642 0.0000000 0.0000000 00000015 0.0102234 0.0102234 0.0000000 0.0000000 ... ... ... ... ... --------------------------------------------------------------------------------------- DiffThd PctThd PctRlt Result --------------------------------------------------------------------------------------- 0.0050 99.50% 100.000000% Pass Success Success Success Success Success
信息项 |
说明 |
---|---|
data_cmp mean |
运行输出数据的均值信息。 |
data_gd mean |
标杆数据的均值信息。 |
split_count |
统计输出数据的个数。 |
max_diff_hd |
输出数据和golden数据的最大误差值阈值。 |
详细对比数据展示(部分) |
Loop(数据位置)、ExpectOut(期望输出值)、RealOut(实际输出值)、FpDiff (绝对误差值)、RateDiff(相对误差值)。 |
整体对比结果展示 |
DiffThd(相对误差值阈值)、PctThd (精度达标数据占比阈值)、PctRlt(实际精度达标数据占比)、Result(对比结果)。 |
Error Line展示项 |
若精度比对结果为Failed,会追加展示部分误差较大的数据的详细信息,信息格式与"详细对比数据展示(部分)"一致。 |
若开启DumpTensor功能或DumpAccChkPoint功能,结果文件存放在dump目录下,结果目录与NPU上板调试类似,具体介绍参见产物说明。
CPU调测阶段默认开启npucheck功能,也支持用户手动关闭该功能。
功能开启后,通常终端会屏显检测到的异常信息,特殊异常会直接中断程序进程,而算子OP指令详细信息保存在npuchk目录下,方便问题分析和定位,详细结果介绍参见产物说明。