昇腾社区首页
中文
注册

Communication

功能说明

Communication界面用于展示集群中全网链路性能以及所有节点的通信性能,通过集群通信与计算重叠时间的分析可以找出集群训练中的慢主机或慢节点。

界面展示

Communication界面主要从两个维度来进行集群通信性能的展示,包括全网链路展示和以节点为粒度展示,分为Communication Matrix和Communication Duration Analysis两部分进行数据展示。

  • Communication Matrix
    Communication Matrix为通信矩阵,主要展示指定迭代通信域内通信算子的相关信息,包括带宽、通信时长及通信尺寸等,如图1所示。
    图1 Communication Matrix
    表1 字段说明

    字段

    说明

    Step

    迭代ID,下拉框支持选择某一个迭代。

    Communication Group

    通信域,下拉框支持选择一个、多个或者所有节点,对应纵坐标进行节点的展示。

    Operator Name

    通信算子名称,下拉框支持选择“Total Op info”或某一个算子;其中Total Op info为对选中的“step”和通信域中所有通信算子数据的统计和。

    Matrix Model

    矩阵模型。

    Communication Matrix Type

    通信矩阵类型。

    • Bandwidth(GB/s):带宽。
    • Transit Size(MB):通信尺寸。
    • Transport Type:链路类型。
    • Transit Time(ms):通信时长。

    Show Inner Communication

    展示卡内通信数据。默认不勾选。

    Src Rank Id

    Source Rank Id,纵坐标为链路信息中源卡的Id。

    Dst Rank Id

    Destination Rank Id,横坐标为链路信息中目的卡的Id。

  • Communication Duration Analysis

    Communication Duration Analysis为通信耗时分析,主要展示节点的通信性能,包括通信时长、等待时长以及节点的链路信息等,如图2所示,界面参数解释请参见表2

    图2 Communication Duration Analysis
    表2 Communication Duration Analysis字段说明

    字段

    说明

    Step

    迭代ID,下拉框支持选择某一个迭代。必选。

    Communication Group

    通信域,下拉框支持选择一个、多个或者所有节点,对应纵坐标进行节点的展示。必选。

    Operator Name

    通信算子名称,下拉框支持选择“Total Op info”或某一个算子;其中Total Op info为对选中的“step”和通信域中所有通信算子数据的统计和。必选。

    Communication Duration Analysis

    通信耗时分析。必选,与Communication Matrix任选其一。

    Communication Matrix

    通信矩阵。必选,与Communication Duration Analysis任选其一。

    Guidance

    通信分析指引。可根据指引信息进行查看,如检查Rank的等待时长占比是否大于阈值(0.2)。

    Visualized Communication Time

    可视化通信时长。

    单击可进行通信耗时数据的拷贝,并支持用户设置目标数据后进行可视化展示;单击实现视图复位。

    Time(ms)

    左侧纵坐标表示时长,单位ms。

    Ratio

    右侧纵坐标表示耗时占比。

    Data Analysis of Communication Time

    算子的通信时长数据分析。

    Rank ID

    卡序号。

    Start Time(ms)

    通信算子的开始时间,相对于集群内该算子开始通信的最早时间,可根据此时间判断不同卡相同算子的先后关系。

    Elapse Time(ms)

    算子的通信总耗时。

    Transit Time(ms)

    通信时长。表示通信算子的通信耗时,如果通信耗时过长,可能是某条链路存在问题。

    Synchronization Time

    同步时长。节点之间进行同步需要的时长。

    Wait Time(ms)

    等待时长。节点之间通信前首先需要进行同步,确保通信的两个节点同步完成,再进行通信。

    Synchronization Time Ratio

    同步时长占比。

    同步时长占比(Synchronization Time Ratio) = 同步时长(Synchronization Time) / (同步时长(Synchronization Time) + 通信时长(Transit Time)),通信前的同步时长占比越大说明通信效率越低,可能存在慢卡的情况。

    Wait Time Ratio

    通信算子的等待时长占比。

    等待时长占比(Wait Time Ratio) = 等待时长(Wait Time)/ (等待时长(Wait Time) + 通信时长(Transit Time)),等待时长占比越大代表该节点的等待时长占总通信耗时越长,通信效率越低。

    Idle Time(ms)

    通信算子下发耗时。

    通信算子下发耗时(Idle Time)= 算子的通信总耗时(Elapse Time)- 通信时长(Transit Time)- 等待时长(Wait Time)。

    Bandwidth Analysis

    带宽分析。

    单击对应的“see more”后可查看对应节点指定算子的带宽详情,如图3图4所示。

    Communication Operators Details

    通信算子的详情,当“Operator Name”选择“Total Op info”时可见。

    单击对应的“see more”后可查看对应节点通信算子的链路详情,如图5所示。

    图3 Bandwidth Analysis1
    图4 Bandwidth Analysis2

    以全网链路为粒度展示通信性能,包括通信时长、通信量、带宽以及链路类型等,图中各字段说明如表3所示。

    表3 Bandwidth Analysis字段说明

    字段

    说明

    Packet Number

    通信包数量。

    Packet Size(MB)

    通信包大小。

    Transport Type

    链路方式。

    SDMA

    SDMA链路(节点内Device间通信链路),包括HCCS、PCIE和SIO三种类型。

    RDMA

    RDMA链路(跨节点Device间通信链路)。

    Transit Size(MB)

    一次通信包的大小。

    Transit Time(ms)

    一次通信的时长。

    Bandwidth(GB/s)

    带宽。带宽一般为通信量除以通信时间。

    经验带宽参考值分别为RDMA_Bandwidth = 12.5, HCCS_Bandwidth = 18, PCIe_Bandwidth = 20。

    Large Packet Ratio

    大通信包占比。通信包的大小足以使得通信链路能达到经验带宽的包的比率。

    图5 Communication Operators Details

    以算子粒度展示通信性能,包括该通信算子的通信时长、等待时长以及同步时长等,图中各字段说明可参考表4

    表4 Communication Operators Details字段说明

    字段

    说明

    Operator Name

    通信算子名称。

    Start Time(ms)

    通信算子的开始时间,相对于集群内该算子开始通信的最早时间,可根据此时间判断不同卡相同算子的先后关系。

    Elapse Time(ms)

    通信算子所有事件消耗时间之和,单位ms。

    Transit Time(ms)

    通信时长,单位ms。通信时长的计算方式为统计SDMA链路和RDMA链路的通信算子总耗时。

    Synchronization Time(ms)

    同步时长,单位ms。第一次传输数据前的等待时间。

    Wait Time(ms)

    等待时长,单位ms。逻辑卡之间进行通信前,首先会进行同步,确保通信的两张卡同步完成,再进行通信。

    Synchronization Time Ratio

    同步时长比例。计算公式为Synchronization Time / (Synchronization Time + Transit Time)。

    Wait Time Ratio

    等待时长比例。计算公式为Wait Time / (Wait Time + Transit Time)。

    Idle Time(ms)

    通信算子下发耗时。

    通信算子下发耗时(Idle Time)= 算子的通信总耗时(Elapse Time)- 通信时长(Transit Time)- 等待时长(Wait Time)。