昇腾社区首页
中文
注册
开发者
下载

概述

MindCluster Ascend FaultDiag组件提供的功能接口包含命令接口和SDK接口。用户可以通过调用接口实现相关功能。

命令接口:直接使用命令方式。提供了日志清洗、故障诊断、单机故障诊断、自定义配置文件、自定义故障实体、屏蔽故障日志、查询版本号和帮助命令接口。

SDK接口:代码级接口,直接调用函数和方法等方式。提供了业务流清洗、根因节点清洗、根因节点诊断、故障事件清洗及故障事件诊断接口。

表1 命令接口

命令

功能说明

ascend-fd parse

日志清洗命令。启动日志清洗任务,清洗训练/推理过程中采集的中间结果数据。

ascend-fd diag

故障诊断命令。启动故障分析任务,分析故障根因,并输出分析报告。

ascend-fd single-diag

单机故障诊断命令。启动单机故障分析任务,输出分析报告。

ascend-fd entity

自定义故障实体命令。用户可自定义故障实体,MindCluster Ascend FaultDiag支持对自定义的故障进行日志清洗、故障诊断、屏蔽故障日志等功能。

ascend-fd blacklist

屏蔽故障日志命令。故障关键词的日志信息,将不被记录到日志清洗后的文件中。

ascend-fd config

自定义配置文件命令。用户可以自定义配置是否支持清洗ModelArts关键日志、配置读取控制台日志大小、配置解析自定义的文件。

ascend-fd version

版本信息查看命令。查询组件版本信息。

ascend-fd -h

查询帮助信息。

表2 SDK接口

命令

功能说明

parse_fault_type

业务流清洗接口。

parse_root_cluster

根因节点清洗接口。

diag_root_cluster

根因节点诊断接口。

parse_knowledge_graph

故障事件清洗接口。

diag_knowledge_graph

故障事件诊断接口。

使用本组件时,会在${HOME}/.ascend_faultdiag目录下生成操作日志和运行日志,日志目录结构如下。

${HOME}/.ascend_faultdiag
└── ascend_faultdiag_operation.log    # 操作日志
└── RUN_LOG                           # 运行日志
  └─ 20241104142355468743_6797877f-7143-443f-a9c6-361e33032c5c

日志保存机制如下:日志文件大小不超过10M,超过限制大小后将自动转储另一个日志文件,同PID的日志文件数量不超过10个,超过限制个数时将自动覆盖最早创建的日志。