本流程以全量应用场景为例,描述整体故障诊断的对应流程,用户可参考图1中的使用流程和表1中说明完成操作。
关键操作 |
对应章节 |
说明 |
---|---|---|
日志采集。根据日志采集目录,采集训练及推理、CANN以及主机和NPU相关日志。 |
集群平台日志采集,请以实际的方式为主,此处仅以目录结构和采集示例为用户提供日志采集流程思路。 |
|
日志采集。准备“训练及推理前采集NPU环境检查文件”。 |
||
日志采集。准备训练及推理中采集NPU网口统计指标、NPU状态监测指标、主机侧资源信息。 |
||
日志采集。训练及推理后采集NPU环境检查文件、用户训练及推理日志、CANN应用类日志、主机侧操作系统日志、Device侧日志。 |
||
(可选)支持用户自定义故障实体。 |
相关组件命令API接口说明请参见自定义故障实体接口。 |
|
(可选)支持用户对CANN应用类日志的ERROR日志进行屏蔽操作。 |
相关组件命令API接口说明请参见屏蔽故障日志接口。 说明:
关于CANN应用类日志的日志类别信息,请参见《CANN 日志参考》。 |
|
使用组件对采集目录进行清洗,并将完成清洗的各节点日志进行转储。 |
|
|
使用组件对完成清洗转储后的日志目录进行诊断。 |
相关组件命令API接口说明请参见故障诊断接口。 |