设备上的每张NPU卡都需要创建对应的NPU网口统计监测指标文件。
在训练任务期间,使用hccn_tool工具,每15秒间隔查询一次NPU网口统计信息,命令参考如下。
/usr/local/Ascend/driver/tools/hccn_tool -i ${device_id} -stat -g
记录所有指标及取值,保存为csv格式文件,格式如表1所示。
命令回显如下:
packet statistics: mac_tx_mac_pause_num:0 mac_rx_mac_pause_num:0 mac_tx_pfc_pkt_num:0 ... roce_qp_status_err_num:0 nic_tx_all_pkg_num:122404 nic_tx_all_oct_num:16921741 nic_rx_all_pkg_num:6414803 nic_rx_all_oct_num:482237805
将每次回显中的参数名作为表头,参数值作为值保存为csv格式文件。