如何收集故障信息,请参见收集AI Core Error问题信息。
从1中收集的slog日志中,在report/*/slog/dev-os-id/[run|debug]/device-os/device-os_*.log目录下找到发生AI Core Error问题附近时间、对应Device的系统日志,检查日志中是否存在“event_id”关键字,若不存在,则跳转到3继续排查;若存在,则单击Link查找对应产品的《健康管理故障定义》并查阅其中的解决方法,典型问题案例请参见HBM比特ECC故障、icache数据校验故障。
ascend-dmi工具需要单独安装,压测AI Core的命令示例如下,若打屏报错GENERAL_WARN或EMERGENCY_WARN表示可能存在AI Core问题:
ascend-dmi --dg -i aicore -s
ascend-dmi工具在MindX DL软件包中,该软件与CANN的配套关系请单击Link查询,ascend-dmi工具的安装及详细使用指导请参见Link。
典型索引类算子包括GatherV2、Scatter、GatherElements等。
msaicerr工具的详细操作请参见使用msaicerr工具分析AI Core Error问题。