HCCL集合通信算子数据

该数据可以从以下入口查看:

该数据在Chrome浏览器中展示示例如下:

多卡、多机或集群场景时各Device之间存在通信,形成各个通信域(Group * Communication),hccl_*.json按照各个通信域进行排列,收集通信算子的耗时。

关键字段说明如下。

表1 字段说明

字段名

字段含义

Group * Communication

通信域下的通信算子。

Title

选择某个组件的接口名称。

Start

显示界面中时间轴上的时刻点,chrome trace自动对齐,单位ms。

Wall Duration

表示当前接口调用耗时,单位ms。

Self Time

表示当前指令本身执行耗时,单位ms。

Plane ID

网络平面ID。

notify id

notify唯一ID。

duration estimated(us)

预估任务持续时间,单位us。

stream id

Stream任务的ID。

task id

Task任务的ID。

task type

Task类型。

src rank

源Rank。

dst rank

目的Rank。

transport type

传输类型,包含:LOCAL、SDMA、RDMA。

size(Byte)

数据量,单位Byte。

data type

数据格式。

link type

链路类型,包含:HCCS、PCIe、RoCE。

bandwidth(GB/s)

带宽大小,单位GB/s