训练及推理前NPU环境检查文件

文件说明

采集方式说明

故障诊断工具支持通过以下方式采集训练及推理前日志:

命令采集

涉及命令及示例如下:
  • 执行以下命令,查询网络健康状态。
    /usr/local/Ascend/driver/tools/hccn_tool -i ${device_id} -net_health -g
    回显如下:
    net health status: Init
  • 执行以下命令,查询RoCE物理链路连接状态。
    /usr/local/Ascend/driver/tools/hccn_tool -i ${device_id} -link -g
    回显如下:
    link status: UP
  • 执行以下命令,查询RoCE网络光模块信息。
    /usr/local/Ascend/driver/tools/hccn_tool -i ${device_id} -optical -g
    回显如下:
    optical info:
    present              : not present
    ...
    Tx Power             : 4.4035 mW
    Rx Power             : 1.0189 mW
    Vcc High Thres       : 3465.00 mV
    Vcc Low Thres        : 3135.00 mV
    Temp High Thres      : 70 C
    Temp Low Thres       : 0 C
    TxPower High Thres   : 3.5481 mW
    TxPower Low Thres    : 0.2818 mW
    RxPower High Thres   : 3.5481 mW
    RxPower Low Thres    : 0.1445 mW
    Tx Bias              : 7.9360 mA
    Tx Los Flag          : 0x0
    Rx Los Flag          : 0xff
    Tx LoL Flag          : 0x0
    Rx LoL Flag          : 0xff
    ...
  • 执行以下命令,查询互联TLS开关配置。
    /usr/local/Ascend/driver/tools/hccn_tool -i ${device_id} -tls -g | grep switch
    回显如下:
    dev_id:0, tls switch[0](0:disable, 1:enable), tls preconfigured[1](0:non-preset, 1:preset), tls alarm time threshold[60]days
  • 执行以下命令,查询Fec模式信息。
    /usr/local/Ascend/driver/tools/hccn_tool -i ${device_id} -fec -g
    回显如下:
    fec mode: rs FEC mode
  • 执行以下命令,查询IP及掩码信息。
    /usr/local/Ascend/driver/tools/hccn_tool -i ${device_id} -ip -g

    回显如下:

    ipaddr:10.xx.xx.10
    netmask:255.255.255.0
  • 执行以下命令,查询收发报文统计信息。
    /usr/local/Ascend/driver/tools/hccn_tool -i ${device_id} -stat -g

    回显如下:

    packet statistics:
    mac_tx_mac_pause_num:0
    mac_rx_mac_pause_num:0
    mac_tx_pfc_pkt_num:0
    ...
    roce_qp_status_err_num:0
    nic_tx_all_pkg_num:122404
    nic_tx_all_oct_num:16921741
    nic_rx_all_pkg_num:6414803
    nic_rx_all_oct_num:482237805
  • 执行以下命令,查询网口历史link统计信息。
    /usr/local/Ascend/driver/tools/hccn_tool -i ${device_id} -link_stat -g

    回显如下:

    [device 0]current time        : Wed Jun  7 10:08:28 2023
    [device 0]link up count       : 2
    [device 0]link change records :
    [device 0]    Tue Jun  6 16:32:12 2023    LINK UP
    [device 0]    Tue Jun  6 16:32:10 2023    LINK DOWN
    [device 0]    Tue Jun  6 16:31:55 2023    LINK UP

    文件存储示例如下,示例仅为0卡存储示例,请用户采集所有卡的信息。

    /usr/local/Ascend/driver/tools/hccn_tool -i 0 -net_health -g
    net health status: Init
    
    /usr/local/Ascend/driver/tools/hccn_tool -i 0 -link -g
    link status: UP
    
    /usr/local/Ascend/driver/tools/hccn_tool -i 0 -optical -g
    optical info:
    present              : not present
    ...
    Tx Power             : 4.4035 mW
    Rx Power             : 1.0189 mW
    Vcc High Thres       : 3465.00 mV
    Vcc Low Thres        : 3135.00 mV
    Temp High Thres      : 70 C
    Temp Low Thres       : 0 C
    TxPower High Thres   : 3.5481 mW
    TxPower Low Thres    : 0.2818 mW
    RxPower High Thres   : 3.5481 mW
    RxPower Low Thres    : 0.1445 mW
    Tx Bias              : 7.9360 mA
    Tx Los Flag          : 0x0
    Rx Los Flag          : 0xff
    Tx LoL Flag          : 0x0
    Rx LoL Flag          : 0xff
    ...
    
    /usr/local/Ascend/driver/tools/hccn_tool -i 0 -tls -g | grep switch
    dev_id:0, tls switch[0](0:disable, 1:enable), tls preconfigured[1](0:non-preset, 1:preset), tls alarm time threshold[60]days
    
    /usr/local/Ascend/driver/tools/hccn_tool -i 0 -fec -g
    fec mode: rs FEC mode
    
    /usr/local/Ascend/driver/tools/hccn_tool -i 0 -ip -g
    ipaddr:10.xx.xx.10
    netmask:255.255.255.0
    
    /usr/local/Ascend/driver/tools/hccn_tool -i 0 -stat -g
    packet statistics:
    mac_tx_mac_pause_num:0
    mac_rx_mac_pause_num:0
    mac_tx_pfc_pkt_num:0
    ...
    roce_qp_status_err_num:0
    nic_tx_all_pkg_num:122404
    nic_tx_all_oct_num:16921741
    nic_rx_all_pkg_num:6414803
    nic_rx_all_oct_num:482237805
    
    /usr/local/Ascend/driver/tools/hccn_tool -i 0 -link_stat -g
    [device 0]current time        : Wed Jun  7 10:08:28 2023
    [device 0]link up count       : 2
    [device 0]link change records :
    [device 0]    Tue Jun  6 16:32:12 2023    LINK UP
    [device 0]    Tue Jun  6 16:32:10 2023    LINK DOWN
    [device 0]    Tue Jun  6 16:31:55 2023    LINK UP
    每条采集命令的结果之间需间隔1行。示例如下:
    /usr/local/Ascend/driver/tools/hccn_tool -i 0 -ip -g
    XXXX
    
    /usr/local/Ascend/driver/tools/hccn_tool -i 0 -stat -g