使用流程
本流程以全量应用场景为例,描述整体故障诊断的对应流程,用户可参考下表完成操作。
使用流程 |
子流程 |
对应章节 |
说明 |
---|---|---|---|
根据日志采集目录结构采集训练、CANN以及主机和NPU相关日志。 |
训练前采集NPU网口检查文件。 |
集群平台日志采集,请以实际的方式为主,此处仅以目录结构和采集示例为用户提供日志采集流程思路。 |
|
训练中采集NPU网口统计指标、NPU状态监测指标、主机侧资源信息 |
|||
训练后采集NPU网口检查文件、用户训练日志、CANN应用类日志、主机侧操作系统日志、Device侧日志 |
|||
使用组件对采集目录进行清洗,并将完成清洗的各节点日志进行转储。 |
- |
|
|
使用组件对完成清洗转储后的日志目录进行诊断。 |
- |
相关组件命令API接口说明请参见故障诊断接口 |