export_type为torch_npu.profiler.ExportType.Db时,生成analysis.db表结构文件,该文件推荐使用MindStudio Insight工具查看,也可以使用Navicat Premium等数据库开发工具直接打开。当前db文件汇总的性能数据如下:
字段名 |
类型 |
含义 |
---|---|---|
hccl_op_name |
TEXT |
通信大算子名,例:hcom_broadcast__303_1_1 |
group_name |
TEXT |
通信域hashId,例:3915571125887837303 |
transport_type |
TEXT |
传输类型,包含:LOCAL、SDMA、RDMA |
transit_size |
NUMERIC |
传输的数据量,单位MB |
transit_time |
NUMERIC |
传输耗时,单位ms |
bandwidth |
NUMERIC |
带宽,单位GB/s |
large_packet_ratio |
NUMERIC |
大数据包的比例 |
package_size |
NUMERIC |
一次传输的通信数据包大小,单位MB |
count |
NUMERIC |
通信传输次数 |
total_duration |
NUMERIC |
数据传输总耗时 |
step |
TEXT |
算子所属的step,例:step12 |
type |
TEXT |
算子类型,包含:collective,p2p |
字段名 |
类型 |
含义 |
---|---|---|
hccl_op_name |
TEXT |
通信算子名称。 |
group_name |
TEXT |
通信算子的分组。 |
start_timestamp |
NUMERIC |
通信开始时间戳,单位us。 |
elapse_time |
NUMERIC |
算子的通信总耗时,单位ms。 |
transit_time |
NUMERIC |
通信时长,单位ms。表示通信算子的通信耗时,如果通信耗时过长,可能是某条链路存在问题。 |
wait_time |
NUMERIC |
等待时长,单位ms。节点之间通信前首先需要进行同步,确保通信的两个节点同步完成,再进行通信。 |
synchronization_time |
NUMERIC |
同步时长,单位ms。节点之间进行同步需要的时长。 |
idle_time |
NUMERIC |
通信算子下发耗时,单位ms。通信算子下发耗时(idle_time) = 算子的通信总耗时(elapse_time) - 通信时长(transit_time) - 等待时长(wait_time)。 |
step |
TEXT |
算子所属的step |
type |
TEXT |
算子类型,包含:collective,p2p |
字段名 |
类型 |
含义 |
---|---|---|
hccl_op_name |
TEXT |
矩阵分析后的精简算子名,例:send-top1 |
group_name |
TEXT |
通信域hashId,例:3915571125887837303 |
src_rank |
TEXT |
发送数据的rankId,例:0 |
dst_rank |
TEXT |
接受数据的rankId,例:1 |
transport_type |
TEXT |
传输类型,包含:LOCAL、SDMA、RDMA |
transit_size |
NUMERIC |
传输的数据量,单位MB |
transit_time |
NUMERIC |
传输耗时,单位ms |
bandwidth |
NUMERIC |
带宽,单位GB/s |
step |
TEXT |
算子所属的step,例:step12 |
type |
TEXT |
算子类型,包含:collective,p2p |
op_name |
TEXT |
算子的原始名字,例:hcom_broadcast__303_1_1 |
字段名 |
类型 |
含义 |
---|---|---|
step |
TEXT |
step编号,例:12 |
computing |
NUMERIC |
计算的时间,单位ms |
communication |
NUMERIC |
通信的时间,单位ms |
overlapped |
NUMERIC |
同时进行计算和通信的时间,单位ms |
communication_not_overlapped |
NUMERIC |
纯用于通信的时间,单位ms |
free |
NUMERIC |
空闲的时间,单位ms |
stage |
NUMERIC |
step内除去接收数据的时间,单位ms |
bubble |
NUMERIC |
step内用于接收数据的时间,单位ms |
communication_not_overlapped_and_exclude_receive |
NUMERIC |
纯用于通信的时间减去用于接收数据的时间,单位ms |