昇腾社区首页
中文
注册

使用流程

本流程以全量应用场景为例,描述整体故障诊断的对应流程,用户可参考下表完成操作。

表1 故障诊断基础使用流程

使用流程

子流程

对应章节

说明

根据日志采集目录结构采集训练、CANN以及主机和NPU相关日志。

训练前采集NPU网口检查文件。

训练前日志采集

集群平台日志采集,请以实际的方式为主,此处仅以目录结构和采集示例为用户提供日志采集流程思路。

训练中采集NPU网口统计指标、NPU状态监测指标、主机侧资源信息

训练中采集

训练后采集NPU网口检查文件、用户训练日志、CANN应用类日志、主机侧操作系统日志、Device侧日志

训练后采集

使用组件对采集目录进行清洗,并将完成清洗的各节点日志进行转储。

-

日志清洗与转储

  • 对应章节中,清洗以单节点的日志清洗为例,实际集群需按节点数量进行对应次数清洗。
  • 相关组件命令API接口说明请参见日志清洗接口

使用组件对完成清洗转储后的日志目录进行诊断。

-

故障诊断

相关组件命令API接口说明请参见故障诊断接口