设备上的每张NPU卡都需要创建对应的NPU网口统计监测指标文件。
故障诊断工具支持通过以下方式采集训练及推理任务中的日志:
命令参考如下:
/usr/local/Ascend/driver/tools/hccn_tool -i ${device_id} -stat -g
记录所有指标及取值,保存为csv格式文件,格式如表1所示。
命令回显如下:
1 2 3 4 5 6 7 8 9 10 | packet statistics: mac_tx_mac_pause_num:0 mac_rx_mac_pause_num:0 mac_tx_pfc_pkt_num:0 ... roce_qp_status_err_num:0 nic_tx_all_pkg_num:122404 nic_tx_all_oct_num:16921741 nic_rx_all_pkg_num:6414803 nic_rx_all_oct_num:482237805 |
将每次回显中的参数名作为表头,参数值作为值保存为csv格式文件。