昇腾社区首页
中文
注册

训练前NPU网口检查文件

文件说明

  • 文件说明:训练启动前,通过hccn_tool工具进行查询,记录各NPU网口ip、掩码、收发报文统计、历史link统计信息。
  • 命名约束:npu_info_before.txt。
  • 存放路径约束:
    • 采集目录/environment_check/
    • ${--env_check}/

采集方式说明

在训练前使用hccn_tool工具查询各NPU网口信息,并将查询指令和查询结果保存到npu_info_before.txt文件中。

涉及命令及示例如下:

  • 执行以下命令,查询ip及掩码信息。
    hccn_tool -i ${device_id} -ip -g

    回显如下:

    ipaddr:10.xx.xx.10
    netmask:255.255.255.0
  • 执行以下命令,查询收发报文统计信息。
    hccn_tool -i ${device_id} -stat -g

    回显如下:

    packet statistics:
    mac_tx_mac_pause_num:0
    mac_rx_mac_pause_num:0
    mac_tx_pfc_pkt_num:0
    ...
    roce_qp_status_err_num:0
    nic_tx_all_pkg_num:122404
    nic_tx_all_oct_num:16921741
    nic_rx_all_pkg_num:6414803
    nic_rx_all_oct_num:482237805
  • 执行以下命令,指令查询网口历史link统计信息。
    hccn_tool -i ${device_id} -link_stat -g

    回显如下:

    [device 0]current time        : Wed Jun  7 10:08:28 2023
    [device 0]link up count       : 2
    [device 0]link change records :
    [device 0]    Tue Jun  6 16:32:12 2023    LINK UP
    [device 0]    Tue Jun  6 16:32:10 2023    LINK DOWN
    [device 0]    Tue Jun  6 16:31:55 2023    LINK UP

    文件存储存示例:

    /usr/local/Ascend/driver/tools/hccn_tool -i 0 -ip -g
    ipaddr:10.xx.xx.10
    netmask:255.255.255.0
    
    /usr/local/Ascend/driver/tools/hccn_tool -i 0 -stat -g
    packet statistics:
    mac_tx_mac_pause_num:0
    mac_rx_mac_pause_num:0
    mac_tx_pfc_pkt_num:0
    ...
    roce_qp_status_err_num:0
    nic_tx_all_pkg_num:122404
    nic_tx_all_oct_num:16921741
    nic_rx_all_pkg_num:6414803
    nic_rx_all_oct_num:482237805
    
    /usr/local/Ascend/driver/tools/hccn_tool -i 0 -link_stat -g
    [device 0]current time        : Wed Jun  7 10:08:28 2023
    [device 0]link up count       : 2
    [device 0]link change records :
    [device 0]    Tue Jun  6 16:32:12 2023    LINK UP
    [device 0]    Tue Jun  6 16:32:10 2023    LINK DOWN
    [device 0]    Tue Jun  6 16:31:55 2023    LINK UP
    • 上述示例仅为0卡存储示例,请用户采集所有卡的信息。
    • 每条采集命令的结果之间需间隔1行。
      示例如下:
      /usr/local/Ascend/driver/tools/hccn_tool -i 0 -ip -g
      XXXX
      
      /usr/local/Ascend/driver/tools/hccn_tool -i 0 -stat -g