Profiling性能数据采集
基本原理
该章节下的接口用于Profiling采集性能数据,支持以下两种实现方式:
- 方式一:将采集到的Profiling数据写入文件,再使用Profiling工具解析该文件,并展示性能分析数据。
acl.prof.init接口、acl.prof.start接口、acl.prof.stop接口、acl.prof.finalize接口配合使用,实现该方式的性能数据采集。该方式可获取pyACL的接口性能数据、AI Core上算子的执行时间、AI Core性能指标数据等。目前这些接口为进程级控制,表示在进程内任意线程调用该接口,其它线程都会生效。
- 方式二:将采集到的Profiling数据解析后写入管道,由用户读入内存,再由用户调用pyACL的接口获取性能数据。
acl.prof.model_subscribe接口、acl.prof.get_*接口、acl.prof.model_un_subscribe接口配合使用,实现该方式的性能数据采集,当前支持获取网络模型中算子的性能数据,包括算子名称、算子类型名称、算子执行时间等。
示例代码1
调用接口后,需增加异常处理的分支,示例代码中不一一列举。以下是关键步骤的代码示例,不可以直接拷贝运行,仅供参考。
示例中,运行管理资源申请与释放请参见运行管理资源申请与运行管理资源释放,模型加载的接口调用流程请参见模型加载,模型推理的接口调用流程、准备模型推理的输入/输出数据的接口调用流程请参见模型执行。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 |
import acl import numpy as np # ...... # 1.申请运行管理资源,包括设置用于计算的Device、创建Context、创建Stream # ...... # 2.模型加载,加载成功后,返回标识模型的model_id # ...... # 3.创建aclmdlDataset类型的数据,用于描述模型的输入数据input、输出数据output # ...... # 4.profiling初始化 # 设置数据落盘路径 PROF_INIT_PATH='...' ret = acl.prof.init(PROF_INIT_PATH) # 5.进行profiling配置 device_list = [0] ACL_PROF_ACL_API = 0x0001 ACL_PROF_TASK_TIME = 0x0002 ACL_PROF_AICORE_METRICS = 0x0004 ACL_PROF_AICPU_TRACE = 0x0008# 创建配置结构体 prof_config = acl.prof.create_config(device_list, 0, 0, ACL_PROF_ACL_API | ACL_PROF_TASK_TIME | ACL_PROF_AICPU_TRACE | ACL_PROF_AICORE_METRICS | ACL_PROF_L2CACHE | ACL_PROF_HCCL) ret = acl.prof.start(prof_config) # 6.执行模型 ret = acl.mdl.execute(model_id, input, output) # 7.处理模型推理结果 # ...... # 8.释放描述模型输入/输出信息、内存等资源,卸载模型 # ...... # 9.关闭profiling配置, 释放配置资源, 释放profiling组件资源 ret = acl.prof.stop(prof_config) ret = acl.prof.destroy_config(prof_config) ret = acl.prof.finalize() # 10.释放运行管理资源 # ...... |
示例代码2
调用接口后,需增加异常处理的分支,示例代码中不一一列举。以下是关键步骤的代码示例,不可以直接拷贝运行,仅供参考。
示例中,运行管理资源申请与释放请参见运行管理资源申请与运行管理资源释放,模型加载的接口调用流程请参见模型加载,模型推理的接口调用流程、准备模型推理的输入/输出数据的接口调用流程请参见模型执行。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 |
import acl import numpy as np # ...... # 1.申请运行管理资源,包括设置用于计算的Device、创建Context、创建Stream # ...... # 2.模型加载,加载成功后,返回标识模型的model_id # ...... # 3.创建aclmdlDataset类型的数据,用于描述模型的输入数据input、输出数据output # ...... # 4.创建管道,用于读取以及写入模型订阅的数据 r, w = os.pipe() # 5.创建模型订阅的配置并且进行模型订阅 ACL_AICORE_NONE = 0xFF subscribe_config = acl.prof.create_subscribe_config(1, ACL_AICORE_NONE, w) # 模型订阅需要传入模型的model_id ret = acl.prof.model_subscribe(model_id, subscribe_config) # 6.实现管道读取订阅数据的函数 # 6.1 自定义函数,实现从用户内存中读取订阅数据的函数 def get_model_info(data, data_len): # 获取算子信息个数 op_number, ret = acl.prof.get_op_num(data, data_len) # 遍历用户内存的算子信息 for i in range(op_number): # 获取算子的模型id model_id = acl.prof.get_model_id(data, data_len, i) # 获取算子的类型名称 op_type, ret = acl.prof.get_op_type(data, data_len, i, 65) # 获取算子的名称 op_name, ret = acl.prof.get_op_name(data, data_len, i, 275) # 获取算子的执行开始时间 op_start = acl.prof.get_op_start(data, data_len, i) # 获取算子的执行结束时间 op_end = acl.prof.get_op_end(data, data_len, i) # 获取算子执行的耗时时间 op_duration = acl.prof.get_op_duration(data, data_len, i) # 6.2 自定义函数,实现从管道中读取数据到用户内存的函数 def prof_data_read(args): fd, ctx = args ret = acl.rt.set_context(ctx) # 获取单位算子信息的大小(Byte) buffer_size, ret = acl.prof.get_op_desc_size() # 设置每次从管道中读取的算子信息个数 N = 10 # 计算存储算子信息的内存的大小 data_len = buffer_size * N # 从管道中读取数据到申请的内存中,读取到的实际数据大小可能小于buffer_size * N,如果管道中没 # 有数据,默认会阻塞直到读取到数据为止 while True: data = os.read(fd, data_len) if len(data) == 0: break np_data = np.array(data) np_data_ptr = acl.util.numpy_to_ptr(np_data) size = np_data.itemsize * np_data.size # 调用6.1实现的函数解析内存中的数据 get_model_info(np_data_ptr, size) # 7.启动线程读取管道数据并解析 thr_id, ret = acl.util.start_thread(prof_data_read, [r, context]) # 8.执行模型 ret = acl.mdl.execute(model_id, input, output) # 9.处理模型推理结果 # ...... # 10.释放描述模型输入/输出信息、内存等资源,卸载模型 # ...... # 11.取消订阅,释放订阅相关资源 ret = acl.prof.model_un_subscribe(model_id) ret = acl.util.stop_thread(thr_id) os.close(r) ret = acl.prof.destroy_subscribe_config(subscribe_config) # 12.释放运行管理资源 # ...... |
父主题: 高级功能