应用场景
全量应用场景
全量应用场景需依赖于训练日志、主机资源日志、NPU日志以及硬件日志等多类日志、指标数据信息。其中部分指标数据需通过额外采集操作获取,因此,本场景推荐具有AI集群运维平台能力的用户对接集成使用。
全量应用场景方案以下图为例,用户需要在所有训练设备中集成Ascend FaultDiag组件,当训练任务结束后,每台训练设备需要收集上述所有日志及指标数据信息,然后使用Ascend FaultDiag的清洗功能进行过滤、提取有效信息,最后将所有设备的原始日志及指标信息和清洗结果转储到AI集群运维平台,平台使用Ascend FaultDiag的诊断功能分析故障根因。

待采集日志及指标数据信息对应的数据来源以及数据用途如下表所示。
数据类别 |
数据来源 |
数据用途 |
---|---|---|
用户训练日志 |
模型训练进程产生的日志 |
用于根因设备分析 |
CANN应用类日志 |
CANN软件产生的运行日志 |
用于根因节点分析与根因设备分析 |
训练前后NPU网口检查 |
在执行训练任务前后,使用hccn_tool工具检查每个NPU的网口信息 |
用于根因设备分析 |
主机侧资源信息 |
NPU状态监测等指标,包括各NPU卡训练主进程使用的CPU占比 (%CPU)、使用的物理内存 (RES)等信息 |
用于设备资源分析 |
NPU网口资源信息 |
NPU网口收发报文统计信息等指标 |
用于网络拥塞分析 |
OS日志 |
Linux系统日志 |
用于根因设备分析 |
NPU Device运行日志 |
Device侧的相关日志和文件,包括slog日志、syslog日志等 |
用于根因设备分析 |
所有日志及指标数据对应的采集方法参见日志采集章节。
基础应用场景
考虑到不同用户的应用需求,基础应用场景仅依赖于训练日志即可。此类日志为训练任务产生,无需额外采集。
基础应用场景方案以下图为例,用户需要在所有训练设备中集成Ascend FaultDiag组件,当训练任务结束后,每台训练设备需要至少收集训练日志和CANN应用类日志,然后使用Ascend FaultDiag的清洗功能过滤、提取有效信息,最后将所有设备的原始日志和清洗结果转储到同一通用/训练服务设备上,用户使用Ascend FaultDiag的诊断功能分析故障根因
